自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

元气满满的小白

学无止境

  • 博客(15)
  • 收藏
  • 关注

原创 CentOS7安装python3

CentOS7安装python3一、下载安装包可以直接从以下网址下载并上传至虚拟机https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tgz或者直接在CentOS中使用以下命令下载wget https://www.python.org/ftp/python/3.6.7/Python-3.6.7.tgz二、解压tar包...

2019-03-20 15:03:45 252 1

原创 hive执行删除表操作报错

在hive执行drop table table_name时报下错SemanticException Unable to fetch table movie. For direct MetaStore DB connections, we don't support retries at the client level.报错原因:hive是基于mysql的数据库,需要连接mysql,由于m...

2019-03-18 09:17:13 1402

原创 MapReduce数据去空去重进阶版及数据乱码解决方法

前言之前写过一篇MapReduce对CSV文件去空去重,虽然能实现功能但是还有很多地方需要改进,刚好有新爬好的智联招聘的职位信息,所以再来一遍,爬取智联招聘的代码链接https://blog.csdn.net/weixin_42063239/article/details/88524079这里只对职位名称或职位描述字段为空的数据删除,因为爬出来的数据比较规范没有空值和重复值,可以自己人为制...

2019-03-13 18:14:30 1692

原创 pythton爬取智联招聘职位信息

前言在智联招聘https://sou.zhaopin.com/时,发现无法直接去解析获得的html文本,它的数据是用js动态加载的,数据内容存储在json文件中,所以不能用以前的方法使用xpath、bs4或正则进行解析如需用MapReduce对此数据进行清洗,请移步下方链接优化前代码(注释详细):https://blog.csdn.net/weixin_42063239/article...

2019-03-13 09:59:26 1000

原创 python字典常用操作

Python字典常用操作定义是一种无序可变序列 字典的键可以为任何不可变数据,比如整数、字符串、元祖等,通常为字符串创建字典# 用等号创建a_dict = {'name': 'Tom', 'age': 18}# 使用dict()和zip()利用已有数据创建keys = ['a', 'b', 'c']values = [1, 2, 3]b_dict = dict(zip...

2019-03-11 23:07:42 2881

原创 Flume理解笔记

前言学习几天flume后的一些浅层次的理解Flume组件再认识Sourcesource组件定义了数据的来源,也就是从哪里获取数据Channelchannel组件定义了数据获取到如何缓存Sinksink组件定义了把数据如何输出、输出到哪里感觉source和channel都很固定,sink则需要更多的配置,比如说输出到哪里,收集多久落地一次数据,收集多少数据落地一次...

2019-03-11 15:12:49 186

原创 Flume监听文件并上传到hdfs

目标监听hive日志,并上传到hdfs中/flume/[YYMMDDHH]/目录下,文件前缀为logs-,每一个小时新建重新创建一个文件夹,每接收10M数据落地一次,当数据不足10M时15分钟落地一次导入相关依赖jar包导入以下jar包到flume路径下的lib里,{}里为相应版本,在hadoop路径下share/hadoop下都能找到,我就添加了一个剩下的在flume/lib下都已经...

2019-03-11 10:03:28 1728

原创 Flume监听端口

Flume概念及作用作用flume可以监听端口或者文件夹,对传输到此处的数据进行打印输出或上传hdfs等操作概念flume是Cloudera提供的一个基于流式系统高可用的、高可靠的分布式海量日志采集、聚合和传输系统组件AgentAgent是一个JVM进程,是flume传输的基本单元SourceSource是负责接收数据到Flume Agent的组件Chann...

2019-03-09 11:55:09 5316

原创 MapReduce去空去重

MapReduce清洗数据注意:此代码虽能完美实现需求,但还有一些地方需要优化详细优化内容请访问下方链接,更新时间2019/03/13https://blog.csdn.net/weixin_42063239/article/details/88537897前言爬虫爬取的数据中会有一些数据有空值或者数据重复,想要得到规范的数据则要进行数据清洗,对保存为csv类型的数据来说可以用...

2019-03-07 19:42:48 4592 5

原创 Scrapy小白爬取智联校园招聘

前言掌握了一部分爬虫基础后开始学习Scrapy分布式爬虫,最初觉得会很难,以为分布式就是像hadoop分布式部署一样去配置很多文件,后来发现Scrapy相比普通python爬虫逻辑更简单,速度更快,还不容易被封IP,但是由于学的时间较短,并没有深入学习scrapy,简单记录一下爬取智联校园招聘部分数据的过程scrapy库的安装(这部分是废话,还是自行百度吧)安装Scrapy库时想都没想...

2019-03-07 09:33:51 944 2

原创 css样式无法更新

开发javaweb项目时修改了一下css文件美化一下网页,发现网页没有改变,首先检查了一下css文件是否成功linkcss文件已经连接,继续查错,选中css连接,右键选择Reveal in Sources panel查看css代码发现css内容并没有更新,因为Chrome缓存了之前的css文件并非更新为我更改了的css文件解决办法:Ctrl+F5强制刷新页面,重新加载资源...

2019-02-25 14:42:32 1264

原创 Servlet用out.print()输出中文乱码

用out.print()往页面输出时产生了中文乱码明明设置了request.setCharacterEncoding("utf-8");response.setContentType("text/html; charset=utf-8");response.setCharacterEncoding("utf-8");但并没有什么用,一番差错加百度下找到了原因,虽然是设置了编码类型,但是...

2018-11-21 13:40:47 5703 2

原创 ubuntu下~/.bashrc和/etc/profile的区别

之前在centos7中配置环境变量是在/etc/prodile.d下配置,现在上课用的是ubuntu系统,配置的环境变量都是在~/.bashrc中,后来老师给了一个配置zookeeper的文档中又在/etc/profile下配置,故在网上搜索了一下两者之间的区别。相同点:都可以储存环境变量不同点:profile为 login shell (交互式shell),.bashrc为 non-...

2018-11-03 22:50:52 705

原创 jupyter notebook 更改启动默认目录

首先进入cmd输入 jupyter notebook --generate-config查看配置文件所在的目录然后进入对应目录打开其配置文件查找 notebook_dir ,按照格式添加配置保存、重启 jupyter notebook 即可...

2018-10-23 21:49:53 2338

原创 mysql5.7执行删除记录操作报错

mysql更换版本为5.7后,执行删除记录操作报错报错如下:Error Code: 1175. You are using safe update mode and you tried to update a table without a WHERE that uses a KEY column To disable safe mode, toggle the option in Pre...

2018-10-18 15:59:00 668

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除