爬虫爬取的网站拉勾网和前程无忧
用scrapy框架
前程无忧
代码如下
spider.py
items.py
setting.py
pipelines.py
拉勾网
spider.py
itmes.py
setting.py
pipelines.py
爬取的数据
将爬取的文件传到linux系统的data目录下
jdk环境
hadoop(完全分布式)环境
hive环境
启动Hadoop集群
flume 的agent文件配置
在flume安装目录下输入命令运行agent文件
bin/flume-ng agent -c conf -f conf/lxt.conf -name a1 -Dflume.root.logger=DEBUG,console
上传文件成功
启动hive
创建数据库
创建表
将数据插入到表中
创建表a存放数据
查询职位为数据分析的平均工资、最大工资、最小工资并插入到a表
查看a表
查询职位为数据采集的平均工资、最大工资、最小工资并插入到a表
查看a表
查询职位为大数据的平均工资、最大工资、最小工资并插入到a表
查看a表
职位工资分析可视化
创建表b存放数据
查询含数据两个字的职位并且工作地址在成都插入到b表
查询含数据两个字的职位并且工作地址在北京插入到b表
查看b表
查询含数据两个字的职位并且工作地址在上海插入到b表
查看b表
查询含数据两个字的职位并且工作地址在广州插入到b表
查看b表
查询含数据两个字的职位并且工作地址在深圳插入到b表
查看b表
岗位分析可视化
创建c表储存数据
查询工作经验为1年、2年、3年、的平均工资和最小工资和最大工资插入到c表
查询c表
工资分析(1-3年工作经验)可视化
创建d表
create table d1(data string,number int)
查询月份并计数出现次数插入到d表中
查询d表
大数据岗位需求变化趋势可视化
用sqoop将hive数据存到mysql
将hive表存到hdfs上
insert overwrite directory ‘user/a’ select * from a;
insert overwrite directory 'user/b select * from b;
insert overwrite directory ‘user/c’ select * from c;
insert overwrite directory ‘user/d’ select * from d;
用sqoop命令将hdfs上的表导入mysql
./sqoop export --connect “jdbc:mysql://192.168.131.101:3306/lxt?useUnicode=true&characterEncoding=utf-8” --username root --password p@ssw0rd --table a --export-dir ‘/user/root/user/a’ --fields-terminated-by ‘\t’ -m 1
./sqoop export --connect “jdbc:mysql://192.168.131.101:3306/lxt?useUnicode=true&characterEncoding=utf-8” --username root --password p@ssw0rd --table b --export-dir ‘/user/root/user/b’ --fields-terminated-by ‘\t’ -m 1
./sqoop export --connect “jdbc:mysql://192.168.131.101:3306/lxt?useUnicode=true&characterEncoding=utf-8” --username root --password p@ssw0rd --table c --export-dir ‘/user/root/user/c’ --fields-terminated-by ‘\t’ -m 1
./sqoop export --connect “jdbc:mysql://192.168.131.101:3306/lxt?useUnicode=true&characterEncoding=utf-8” --username root --password p@ssw0rd --table d --export-dir ‘/user/root/user/d’ --fields-terminated-by ‘\t’ -m 1