自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 HBase-思维导图

2022-05-08 17:38:49 619

原创 网络爬虫-四种统计图

1,柱状图import numpy as npimport matplotlib.pyplot as plt#准备数据x=np.array(['baseketball','football','baseball','beautiful',])y=np.array([10,20,20,9])c=np.array(['#4CAF50','red','hotpink','#556B2F'])#插入数据plt.bar(x,y,color=c,width=0.5)plt.title('hobby'

2022-05-08 17:35:46 266

原创 Hadoop-代码统计文本单词

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import org.apache.hadoop.mapreduce.lib

2022-05-08 17:29:07 117

原创 hadoop_WordCountMap

import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/*LongWritable 偏移量 Long,表示该行在文件中的位置,而不是行号* Text map阶段的输入数据 一行

2022-05-01 14:21:31 99

原创 mysql查询优化和参数优化

#避免全表扫描use test;create table if not exists t(id int,num int defalult 0,name varchar(20));create index ix_num on t(num);#避免查询null #未使用索引select id from t where num=null;#使用索引select id from t where num=0;#避免使用!=、<>(也是!=) 未使用索引select * from t .

2022-05-01 14:19:09 747

原创 爬虫_pandas

123.pyimport pandas as pddf=pd.read_csv('./123.csv')打印某一列;判断某一列是否有空值print(df['NUM_BEDROOMS'])print(df['NUM_BEDROOMS'].isnull())dropna()中写inplace=True修改源数据df2=df.dropna()指定的列的某一行有空值的话就删除那一行数据df3=df.dropna(subset=['ST_NUM']) 替换脏数据为666 df4=df..

2022-05-01 14:17:12 653

原创 网络爬虫__numpy

下载numpy包from numpy import *print(eye(4)) 打印4行4列的数组,每个数后面都有小数点,第n行第n列的数都为一,其余为0(1<=n<=4)import numpy as npimport numpy as npa=np.array([1,2,3])创建一个ndarray对象 ndarray是多维数组 dimensional 维度print(a.dtype)打印数据类型 int32表示4字节的整形print(a.shape)打印数组的元素

2022-04-19 13:38:32 162

原创 SQL扫描

select(select count(*) from city)-count(*) from city where id<=5;这样的语句不用全表扫描,提高了效率,这条语句扫描了6次 小括号中的查询语句没有进行全表扫描,sql知道有多少行数,count(*) from city where id<=5 sql语句中的这一部分语句查询了5行数据 select * from city where id>5;扫描了95次select count(*) from city;速度...

2022-04-19 10:11:17 217

原创 Linux__hadoop免密登录&JavaToJDFS

配置ssh免登陆生成ssh免登陆密钥cd ~,进入到我的home目录cd .ssh/ssh-keygen -t rsa (四个回车)执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)将公钥拷贝到要免登陆的机器上cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys cat是查看或ssh-copy-id -i localhost关闭所有stop-all.sh开启所有start

2022-04-19 10:05:00 78

原创 数据库_存储过程&范式

创建存 过程的外壳delimiter $create procedure test(userId int) beginend $delimiter ;存储过程if(begin 和 end $之间)1、声明变量username declare username varchar(32) default ' ';2、if语句if(userId%2=0)then   #查询语句,将用户表的名字放到username变量   select name into username fr

2022-04-10 11:44:49 351

原创 Hadoop大数据_安装jdk、hadoop

安装jdk一、开启网络,ifconfig指令查看ip二、修改主机名hostnamectl set-hostname hadoop三、查看防火墙状态并打开防火墙1.firewall-cmd --state查看防火墙状态2.systemctl start iptables.service打开防火墙3.reboot 重启Linux四、删除已有的jdk查看java安装版本:java -version查看java安装包:rpm -qa|grep java删除java安装包:

2022-04-10 11:40:49 301

原创 网络爬虫_xpath

from lxml import etree#https://mirrors.aliyun.com/pypi/simple/ python仓库wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"&gt...

2022-04-10 11:37:35 92

原创 数据库_视图事物触发器存储过程

1.创建视图create view 视图名(视图列1,视图列2) 视图列名为中文asselect * from 表名 没有指定那一列,从第一个列名开始创建with check option;2.添加视图数据、删除视图、查询视图、修改视图和表一样的用法3.创建多表视图create view 视图名(视图列1,视图列2,视图列3)asselect 列名1,列名2,列名3 from 表名1...

2022-04-03 17:19:20 81

原创 Linux_ssh服务、Linux自有服务、权限认识

ssh:安全外壳协议 端口号默认是22如果要修改,则需要修改ssh服务的配置文件 修改范围:0-65535服务启动/终止/重启service sshd start/stop/restart/etc/init.d/sshd start/stop/restart获取服务器ip地址:ifconfigpscp -r root@192.168.21.128:/etc E:\tmp #将远程linux服务器下的/etc整个目录下载到电脑windows系统的E:\tmp下 ...

2022-04-03 17:15:30 74

原创 scrapy_爬虫

命令行下载jar包pip install xxxxxx -i http://pypi.douban.com/simple --trusted-host pypi.douban.com使用上面的命令下载wheel、lxml、twisted、pywin32、scrapy五个jar包,xxxxxx内填包名命令行创建项目scrapy startproject yc yc是项目名创建py文件scrapy genspider baidu www.baidu.com baidu是文件名 文件名后...

2022-04-03 17:09:34 69

原创 Hadoop-shell脚本

1、什么是shell什么是shell?Shell(外壳)是一个用C语言编写的程序,它是用户使用Linux的桥梁。Shell既是一种命令语言,又是一种程序设计语言。Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。什么是脚本?脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。常见的脚本:JavaScript(JS,前端),VBScript,ASP,JSP,PHP(后端),SQL(数据库操作语言),Perl,

2022-03-20 20:08:13 541

原创 hbase索引

#创建数据库CREATE DATABASE IF NOT EXISTS info DEFAULT CHARSET utf8;USE info;#创建表CREATE TABLE IF NOT EXISTS emp(emp_id INT PRIMARY KEY AUTO_INCREMENT,emp_name VARCHAR(20),salary INT,dept_id INT,manager_id INT);SELECT * FROM emp WHERE emp_name = "父";

2022-03-20 19:50:30 480

原创 Scrapy的使用和scrapy五大基本构成

目录scrapy的使用Scrapy五大基本构成:from urllib import requestimport re#定义urlpage=100url='网站路径'try: #定义请求头 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537...

2022-03-20 19:40:20 190

原创 Linux指令

一.基础指令1、ls指令ls:列出当前目录下的所有文件/文件夹的名字ls/root:列出root下的所有文件/文件夹的名字ls-l:以详细列表的形式展示ls-la,ls-a:显示所有文件/文件夹(包含了隐藏文件/文件夹)ls-lh/root:列出root下的文件/文件夹的名称,以列表的形式并且在显示文档大小的时候以可读性较高的形式显示2、pwd指令pwd:即print working directory,打印当前目录3、cd指令cd:..:返回到上一级目录cd/u

2022-03-12 19:40:34 1633

原创 SQL基础语法

目录1.创建库、表,使用库2.增、删、改、查3.表关联4.子查询1.创建库、表,使用库CREATE DATABASE IF NOT EXISTS 数据库名 DEFAULT CHARSET utf8;USE 数据库名;CREATE TABLE temp(id INT PRIMARY KEY AUTO_INCREMENT, NAME VARCHAR(50) NOT NULL, birthday DATE NOT NU...

2022-03-12 19:25:20 1043

原创 爬虫基础知识

目录爬虫入门程序爬虫程序添加data,header,然后post请求爬虫程序添加cookie正则表达式爬虫入门程序import urllib.requestimport urllib.error# 定义网址url="http://www.baidu.com"# 访问网址responsel=urllib.request.urlopen(url)# 获取响应的状态码print(responsel.getcode())# 打印网页的内容长度print(r...

2022-03-12 10:26:19 1072

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除