起来，该敲代码啦-CSDN博客

1，柱状图import numpy as npimport matplotlib.pyplot as plt#准备数据x=np.array(['baseketball','football','baseball','beautiful',])y=np.array([10,20,20,9])c=np.array(['#4CAF50','red','hotpink','#556B2F'])#插入数据plt.bar(x,y,color=c,width=0.5)plt.title('hobby'

2022-05-08 17:35:46 350

原创 Hadoop-代码统计文本单词

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import org.apache.hadoop.mapreduce.lib

2022-05-08 17:29:07 162

原创 hadoop_WordCountMap

import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/*LongWritable 偏移量 Long，表示该行在文件中的位置，而不是行号* Text map阶段的输入数据一行

2022-05-01 14:21:31 161

原创 mysql查询优化和参数优化

#避免全表扫描use test;create table if not exists t(id int,num int defalult 0,name varchar(20));create index ix_num on t(num);#避免查询null #未使用索引select id from t where num=null;#使用索引select id from t where num=0;#避免使用!=、<>(也是!=) 未使用索引select * from t .

2022-05-01 14:19:09 808

原创爬虫_pandas

123.pyimport pandas as pddf=pd.read_csv('./123.csv')打印某一列;判断某一列是否有空值print(df['NUM_BEDROOMS'])print(df['NUM_BEDROOMS'].isnull())dropna()中写inplace=True修改源数据df2=df.dropna()指定的列的某一行有空值的话就删除那一行数据df3=df.dropna(subset=['ST_NUM']) 替换脏数据为666 df4=df..

2022-05-01 14:17:12 752

原创网络爬虫__numpy

下载numpy包from numpy import *print(eye(4)) 打印4行4列的数组，每个数后面都有小数点，第n行第n列的数都为一，其余为0（1<=n<=4）import numpy as npimport numpy as npa=np.array([1,2,3])创建一个ndarray对象 ndarray是多维数组 dimensional 维度print(a.dtype)打印数据类型 int32表示4字节的整形print(a.shape)打印数组的元素

2022-04-19 13:38:32 221

原创 SQL扫描

select(select count(*) from city)-count(*) from city where id<=5;这样的语句不用全表扫描，提高了效率，这条语句扫描了6次小括号中的查询语句没有进行全表扫描，sql知道有多少行数，count(*) from city where id<=5 sql语句中的这一部分语句查询了5行数据 select * from city where id>5;扫描了95次select count(*) from city;速度...

2022-04-19 10:11:17 290

原创 Linux__hadoop免密登录&JavaToJDFS

配置ssh免登陆生成ssh免登陆密钥cd ~，进入到我的home目录cd .ssh/ssh-keygen -t rsa （四个回车）执行完这个命令后，会生成两个文件id_rsa（私钥）、id_rsa.pub（公钥）将公钥拷贝到要免登陆的机器上cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys cat是查看或ssh-copy-id -i localhost关闭所有stop-all.sh开启所有start

2022-04-19 10:05:00 128

原创数据库_存储过程&范式

创建存过程的外壳delimiter $create procedure test(userId int) beginend $delimiter ;存储过程if(begin 和 end $之间)1、声明变量username declare username varchar(32) default ' ';2、if语句if(userId%2=0)then 　　#查询语句,将用户表的名字放到username变量　　select name into username fr

2022-04-10 11:44:49 400

原创 Hadoop大数据_安装jdk、hadoop

安装jdk一、开启网络,ifconfig指令查看ip二、修改主机名hostnamectl set-hostname hadoop三、查看防火墙状态并打开防火墙1.firewall-cmd --state查看防火墙状态2.systemctl start iptables.service打开防火墙3.reboot 重启Linux四、删除已有的jdk查看java安装版本：java -version查看java安装包：rpm -qa|grep java删除java安装包：

2022-04-10 11:40:49 379

原创网络爬虫_xpath

from lxml import etree#https://mirrors.aliyun.com/pypi/simple/ python仓库wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"&gt...

2022-04-10 11:37:35 143

原创数据库_视图事物触发器存储过程

1.创建视图create view 视图名(视图列1,视图列2) 视图列名为中文asselect * from 表名没有指定那一列,从第一个列名开始创建with check option;2.添加视图数据、删除视图、查询视图、修改视图和表一样的用法3.创建多表视图create view 视图名(视图列1,视图列2,视图列3)asselect 列名1,列名2,列名3 from 表名1...

2022-04-03 17:19:20 128

原创 Linux_ssh服务、Linux自有服务、权限认识

ssh：安全外壳协议端口号默认是22如果要修改,则需要修改ssh服务的配置文件修改范围：0-65535服务启动/终止/重启service sshd start/stop/restart/etc/init.d/sshd start/stop/restart获取服务器ip地址：ifconfigpscp -r root@192.168.21.128:/etc E:\tmp #将远程linux服务器下的/etc整个目录下载到电脑windows系统的E:\tmp下 ...

2022-04-03 17:15:30 118

原创 scrapy_爬虫

命令行下载jar包pip install xxxxxx -i http://pypi.douban.com/simple --trusted-host pypi.douban.com使用上面的命令下载wheel、lxml、twisted、pywin32、scrapy五个jar包，xxxxxx内填包名命令行创建项目scrapy startproject yc yc是项目名创建py文件scrapy genspider baidu www.baidu.com baidu是文件名文件名后...

2022-04-03 17:09:34 120

原创 Hadoop-shell脚本

1、什么是shell什么是shell？Shell（外壳）是一个用C语言编写的程序，它是用户使用Linux的桥梁。Shell既是一种命令语言，又是一种程序设计语言。Shell是指一种应用程序，这个应用程序提供了一个界面，用户通过这个界面访问操作系统内核的服务。什么是脚本？脚本简单地说就是一条条的文字命令，这些文字命令是可以看到的（如可以用记事本打开查看、编辑）。常见的脚本：JavaScript（JS，前端），VBScript，ASP，JSP，PHP（后端），SQL（数据库操作语言），Perl，

2022-03-20 20:08:13 649

原创 hbase索引

#创建数据库CREATE DATABASE IF NOT EXISTS info DEFAULT CHARSET utf8;USE info;#创建表CREATE TABLE IF NOT EXISTS emp(emp_id INT PRIMARY KEY AUTO_INCREMENT,emp_name VARCHAR(20),salary INT,dept_id INT,manager_id INT);SELECT * FROM emp WHERE emp_name = "父";

2022-03-20 19:50:30 579

原创 Scrapy的使用和scrapy五大基本构成

目录scrapy的使用Scrapy五大基本构成:from urllib import requestimport re#定义urlpage=100url='网站路径'try: #定义请求头 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537...

2022-03-20 19:40:20 249

原创 Linux指令

一.基础指令1、ls指令ls：列出当前目录下的所有文件/文件夹的名字ls/root:列出root下的所有文件/文件夹的名字ls-l:以详细列表的形式展示ls-la，ls-a：显示所有文件/文件夹（包含了隐藏文件/文件夹）ls-lh/root:列出root下的文件/文件夹的名称，以列表的形式并且在显示文档大小的时候以可读性较高的形式显示2、pwd指令pwd：即print working directory，打印当前目录3、cd指令cd：..:返回到上一级目录cd/u

2022-03-12 19:40:34 2084

原创 SQL基础语法

目录1.创建库、表，使用库2.增、删、改、查3.表关联4.子查询1.创建库、表，使用库CREATE DATABASE IF NOT EXISTS 数据库名 DEFAULT CHARSET utf8;USE 数据库名；CREATE TABLE temp（id INT PRIMARY KEY AUTO_INCREMENT, NAME VARCHAR(50) NOT NULL, birthday DATE NOT NU...

2022-03-12 19:25:20 1097

原创爬虫基础知识

目录爬虫入门程序爬虫程序添加data，header，然后post请求爬虫程序添加cookie正则表达式爬虫入门程序import urllib.requestimport urllib.error# 定义网址url="http://www.baidu.com"# 访问网址responsel=urllib.request.urlopen(url)# 获取响应的状态码print(responsel.getcode())# 打印网页的内容长度print(r...

2022-03-12 10:26:19 1148

hy3131的博客

原创 HBase-思维导图

原创网络爬虫-四种统计图