- 博客(21)
- 收藏
- 关注
原创 网络爬虫-四种统计图
1,柱状图import numpy as npimport matplotlib.pyplot as plt#准备数据x=np.array(['baseketball','football','baseball','beautiful',])y=np.array([10,20,20,9])c=np.array(['#4CAF50','red','hotpink','#556B2F'])#插入数据plt.bar(x,y,color=c,width=0.5)plt.title('hobby
2022-05-08 17:32:50 299
原创 Hadoop-代码统计文本单词
import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;/** Text 输入的字符串类型,序列化* IntWritable 输入一串1,序列化* Text 输出的字符串类型,序列化* IntWritable 输出的求和数组,序列化*/public class .
2022-05-08 17:31:32 919
原创 hadoop_WordCountMap
import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/*LongWritable 偏移量 Long,表示该行在文件中的位置,而不是行号* Text map阶段的输入数据 一行文本信息 .
2022-04-30 23:49:57 1161
原创 mysql查询优化和参数优化
#避免全表扫描use test;create table if not exists t(id int,num int defalult 0,name varchar(20));create index ix_num on t(num);#避免查询null #未使用索引select id from t where num=null;#使用索引select id from t where num=0;#避免使用!=、<>(也是!=) 未使用索引select * from t .
2022-04-30 23:48:38 693
原创 爬虫_pandas
123.pyimport pandas as pddf=pd.read_csv('./123.csv')打印某一列;判断某一列是否有空值print(df['NUM_BEDROOMS'])print(df['NUM_BEDROOMS'].isnull())dropna()中写inplace=True修改源数据df2=df.dropna()指定的列的某一行有空值的话就删除那一行数据df3=df.dropna(subset=['ST_NUM']) 替换脏数据为666 df4=...
2022-04-30 23:45:55 978
原创 网络爬虫__numpy
下载numpy包from numpy import *print(eye(4)) 打印4行4列的数组,每个数后面都有小数点,第n行第n列的数都为一,其余为0(1<=n<=4)import numpy as npimport numpy as npa=np.array([1,2,3])创建一个ndarray对象 ndarray是多维数组 dimensional 维度print(a.dtype)打印数据类型 int32表示4字节的整形print(a.shape)打印数组的
2022-04-19 12:29:10 240
原创 Linux__hadoop免密登录&JavaToJDFS
配置ssh免登陆生成ssh免登陆密钥cd ~,进入到我的home目录cd .ssh/ssh-keygen -t rsa (四个回车)执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)将公钥拷贝到要免登陆的机器上cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys cat是查看或ssh-copy-id -i localhost关闭所有stop-all.sh开启所有start-all.shhadoo
2022-04-19 09:43:07 176
原创 sql扫描
select(select count(*) from city)-count(*) from city where id<=5;这样的语句不用全表扫描,提高了效率,这条语句扫描了6次 小括号中的查询语句没有进行全表扫描,sql知道有多少行数,count(*) from city where id<=5 sql语句中的这一部分语句查询了5行数据 select * from city where id>5;扫描了95次 select count(*) from city;速度更
2022-04-19 09:40:58 504
原创 网络爬虫_xpath
from lxml import etree#https://mirrors.aliyun.com/pypi/simple/ python仓库wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"&g.
2022-04-10 10:55:23 548
原创 Hadoop大数据_安装jdk、hadoop
安装jdk一、开启网络,ifconfig指令查看ip二、修改主机名hostnamectl set-hostname hadoop三、查看防火墙状态并打开防火墙1.firewall-cmd --state查看防火墙状态2.systemctl start iptables.service打开防火墙3.reboot 重启Linux四、删除已有的jdk查看java安装版本:java -version查看java安装包:rpm -qa|grep java删除java安装包:
2022-04-10 10:52:35 2304
原创 数据库_存储过程&范式——龙红云
创建存过程的外壳delimiter $create procedure test(userId int) beginend $delimiter ;存储过程if(begin 和 end $之间)1、声明变量username declare username varchar(32) default ' ';2、if语句if(userId%2=0)then #查询语句,将用户表的名字放到username变量 select name into usernam...
2022-04-10 10:48:51 2614
原创 scrapy_爬虫
命令行下载jar包pip install xxxxxx -i http://pypi.douban.com/simple --trusted-host pypi.douban.com使用上面的命令下载wheel、lxml、twisted、pywin32、scrapy五个jar包,xxxxxx内填包名命令行创建项目scrapy startproject yc yc是项目名创建py文件scrapy genspider baidu www.baidu.com baidu是文件名 文件
2022-04-03 16:45:23 762
原创 Linux_ssh服务_linux自有服务_权限认识
ssh:安全外壳协议 端口号默认是22如果要修改,则需要修改ssh服务的配置文件 修改范围:0-65535服务启动/终止/重启service sshd start/stop/restart/etc/init.d/sshd start/stop/restart获取服务器ip地址:ifconfigpscp -r [email protected]:/etc E:\tmp #将远程linux服务器下的/etc整个目录下载到电脑windows系统的E:\tmp下 ...
2022-04-03 16:34:50 961
原创 数据库_视图事务触发器存储过程
1.创建视图create view 视图名(视图列1,视图列2) 视图列名为中文asselect * from 表名 没有指定那一列,从第一个列名开始创建with check option;2.添加视图数据、删除视图、查询视图、修改视图和表一样的用法3.创建多表视图create view 视图名(视图列1,视图列2,视图列3)asselect 列名1,列名2,列名3 from 表名1...
2022-04-03 16:32:26 654
原创 爬虫标题和内容_龙红云
from urllib import requestimport repage=54 #匹配段子吧的第五十四页url="http://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn="+str(page)try: #请求头 headers={'User-Agent':'User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36.
2022-03-20 14:09:54 688
原创 索引mysql_龙红云
1、单独创建索引create index 索引名 on 表名(要创建索引的列名);create indexindex_name on emp(emp_name);2、修改表结构创建索引alter table 表名 add index 索引名(要创建索引的列名);alter tableempadd index index_salary(salary);3、删除索引drop index 索引名 on 表名;drop indexindex_nameonemp;4、单...
2022-03-20 14:04:00 141
原创 LINUX_shell_龙红云
chmod +x test.sh #给test文件添加权限./test.sh #运行桌面上的文件/home/cx/test2.sh #运行指定目录下的文件#!/bin/bash #指定告知系统当前这个脚本要使用的shell解释器a="hello" 定义变量echo $a 输出变量dt=`date '+%F %T'` # +%F表示年月日。%T表示时分秒,单独使用时要加+号。字母可以小写a=10readonly a #将变量设置为只读,只读的变量不可修改,但能用来做运...
2022-03-20 13:59:53 1068
原创 SQL基础语法_龙红云
1、建库:create database if not exists 库名 default charset utf8;或create database表名建表(例):create table if not exists cs_user(id int primary key auto_increment,username varchar(20) not null unique,password varchar(20) not null,gender varchar(5) no..
2022-03-12 18:59:07 703
原创 linux指令_龙红云
一.基础指令1、ls指令2、pwd指令3、cd指令4、mkdir指令5、touch指令6、cp指令7、mv指令8、rm指令9、vim指令10、cat指令
2022-03-12 18:50:20 2033
原创 爬虫基础_龙红云
爬虫入门程序import urllib.request#定义网址url="http://www.baidu.com"#访问网址responsel=urllib.request.urlopen(url)#打印状态码print(responsel.getcode())#读取页面内容print(responsel.read())
2022-03-12 18:49:12 647
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人