- 博客(21)
- 收藏
- 关注
原创 MapReduce代码统计文本单词
Map阶段.每次读一行数据,2.拆分每行数据,3.每个单词碰到一次写个1import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;public class WordCount
2022-05-08 21:50:41 161
原创 爬虫的四种统计图代码
Matplotlib绘图线importmatplotlib.pyplotaspltimportnumpyasnpypoints=np.array([6,2,13,10])plt.plot(ypoints,linestyle='dotted')plt.show()Matplotlib 散点图importmatplotlib.pyplotaspltimportnumpyasnpx=np.array([1,2,3,4,5,6,...
2022-05-08 21:41:04 527
原创 hadoopHDFS的java访问接口
连接hdfsimport com.sun.scenario.effect.impl.sw.sse.SSEBlend_SRC_OUTPeer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IOUtils;import org.junit.Before;i
2022-05-01 20:10:00 279
原创 爬虫Pandas
Pandas 是 Python 语言的一个扩展程序库,用于数据分析。Pandas 是一个开放源码、BSD 许可的库,提供高性能、易于使用的数据结构和数据分析工具。Pandas 名字衍生自术语 "panel data"(面板数据)和 "Python data analysis"(Python 数据分析)。Pandas 一个强大的分析结构化数据的工具集,基础是Numpy(提供高性能的矩阵运算)。Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入.
2022-05-01 20:01:56 548
原创 MySQL参数优化
MySQL性能优化之参数配置1、目的:通过根据服务器目前状况,修改Mysql的系统参数,达到合理利用服务器现有资源,最大合理的提高MySQL性能。2、服务器参数:32G内存、4个CPU,每个CPU8核。3、MySQL目前安装状况。MySQL目前安装,用的是MySQL默认的最大支持配置。拷贝的是my-huge.cnf.编码已修改为UTF-8.具体修改及安装MySQL,可以参考<<Linux系统上安装MySQL5.5>>帮助文档。4、修改My...
2022-05-01 19:56:21 1986
原创 java操作hdfs
1.删除tmp2.修改配置修改namenode的地址为具体IP (之前写的localhost)修改slaves文件,为具体IP3. 格式化hdfshadoop namenode –format4.启动HDFSstart-dfs.sh
2022-04-24 22:17:06 1677
原创 numpy函数
数学函数函数 描述add() 对两个数组的逐个字符串元素进行连接multiply() 返回按元素多重连接后的字符串center() 居中字符串capitalize() 将字符串第一个字母转换为大写title() 将字符串的每个单词的第一个字母转换为大写lower() 数组元素转换为小写upper() 数组元素转换为大写split() ...
2022-04-24 22:07:04 366
原创 sql查询优化
count的优化a. select count(*) from world.city where id > 5;b. select (select count(*) from world.city) – count(*) from world.city where id <= 5;a语句当行数超过11行的时候需要扫描的行数比b语句要多, b语句扫描了6行,此种情况下,b语句比a语句更有效率。当没有where语句的时候直接select count(*) from world.city这
2022-04-24 21:53:57 97
原创 数据库范式
第一范式数据表的每一列都要保持它的原子特性,也就是列不能再被分割。这张表就不符合第一范式规定的原子性,不符合关系型数据库的基本要求,在关系型数据库中创建这个表的操作就不能成功。不得不将数据表设计为如下形式。根据第一范式修改第二范式属性必须完全依赖于主键,消除部分依赖。分数依赖:学号、课名(相当于联合主键) 姓名依赖:学号(主键)缺点表中的第一行数据都存储了系名、系主任,数据的冗余太大如果有一个新的系还没有开始找到学生,那么不能讲该系的信息添加到数据表中去.
2022-04-11 23:29:51 674
原创 爬虫xpath
from lxml import etree#定义字符串wb_data = """ <div> <ul> <li class="item-0"><a href="link1.html">first item</a></li> <li class="item-1"><a href="link2.html"&..
2022-04-11 23:06:58 80
原创 Hadoop2.2.0伪分布式搭建
1.准备Linux环境 1.1 开启网络,ifconfig指令查看ip 1.2 修改主机名为自己名字(hadoop) vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=hadoop 1.3修改主机名和IP的映射关系 vim /etc/hosts 192.168.182.128 hadoop 1.4关...
2022-04-11 22:56:34 87
原创 爬虫爬取案例
1.创建项目打开一个终端输入(建议放到合适的路径下,默认是C盘)scrapy startproject TXmoviescd TXmoviesscrapy genspider txms v.qq.com2.修改setting修改三项内容,第一个是不遵循机器人协议,第二个是下载间隙,由于下面的程序要下载多个页面,所以需要给一个间隙(不给也可以,只是很容易被侦测到),第三个是请求头,添加一个User-Agent,第四个是打开一个管道ROBOTSTXT_OBEY = False
2022-04-02 23:25:31 341
原创 Linux自有服务
一、设置主机名回顾:#hostname#hostname -f FQDN(全限定域名)①临时设置主机名(立竿见影),需要切换用户使之生效#hostname设置的主机名②永久设置主机名(需要重启)先找到一个文件/etc/sysconfig/network 【主机名的配置文件】修改其中的HOSTNAME为自己需要设置的永久主机名③修改linux服务器的hosts文件,将yunwei指向本地(设置FQDN)Hosts文件的位置:/etc/hos...
2022-04-02 23:17:24 80
原创 mysql触发器
#创建销售表CREATE TABLE IF NOT EXISTS student(username VARCHAR(50),PASSWORD VARCHAR(50),stuid INT PRIMARY KEY AUTO_INCREMENT,birthday DATE);#插入数据INSERT INTO student(username,PASSWORD,birthday)VALUES('王刚','14111','2016-08-23');#成绩表CREATE TABLE
2022-04-02 23:07:55 408
原创 Shell基础
一、关于shell1、什么是shell什么是shell?Shell(外壳) 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。什么是脚本?脚本简单地说就是一条条的文字命令,这些文字命令是可以看到的(如可以用记事本打开查看、编辑)。常见的脚本: JavaScript(JS,前端),VBScript, ASP,JSP,
2022-03-20 14:29:54 111
原创 Python网络爬虫案例
确定 URLfrom urllib import requestimport re#定义URLpage=50url="https://tieba.baidu.com/f?kw=%E6%AE%B5%E5%AD%90&ie=utf-8&pn"+str(page)添加headers并抓取页面代码try: #定义请求头 headers = {'User-Agent': 'User-Agent:Mozilla/5.0 (Macintosh; Intel Mac
2022-03-20 14:17:16 383
原创 MySQL 索引
直接创建索引CREATE INDEX index_name ON table(column(length))修改表结构的方式添加索引ALTER TABLE table_name ADD INDEX index_name (column(length))创建表的时候同时创建索引CREATE TABLE `table` ( `id` int(11) NOT NULL AUTO_INCREMENT , `title` char(255) CHARACTER SET ut...
2022-03-20 13:55:43 536
原创 linux指令
基础指令1、ls指令含义:ls(list)用法1:#ls含义:列出当前工作目录下的所有文件/文件夹的名称2、pwd指令用法:#pwd (printworkingdirectory,打印当前工作目录)3、cd指令命令:#cd (changedirectory,改变目录)作用:用于切换当前的工作目录的语法:#cd路径cd ..cd案例:当前在“/”下,需要使用绝对路径切换到/usr/local。案例:当前在/...
2022-03-13 23:08:13 642
原创 爬虫的基础
#爬虫的入门程序#导入功能库import urllib#调用urllib的urlopen方法,第一个参数url为URLresponse=urllib.urlopen("http://www.baidu.com")print response.read( )#爬虫程序添加data,header,然后post请求#导入功能库库名 urllib urllib2 import urllib import urllib2 #填写地址urlurl = 'http://ww
2022-03-13 16:14:37 77
原创 SQL的基础语法
#建库建表的语法#插入数据建立表格#表关联查询#子查询select * from 表明1 where字段2>=( select字段2 fromwhere字段1=条件值);
2022-03-13 15:47:37 290
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人