利用scrapy框架写爬虫爬取招聘网,存入mongodb数据库,用flume传到hdfs上,用hive分析结果利用sqoop技术存储到mysql数据库中,并将数据可视化
搭建爬虫并爬取数据
爬虫文件
跑取字段
mongodb存储数据
将mongodb数据导出为csv文件
配置flume传文件到hdfs
这里虚拟机要使用的环境都已配置好
编写hdfs_template.conf文件
启动flume并将csv文件传入虚拟机flume监控的文件夹下
查看hdfs
启动hive,创建表并导入数据
创建表查询自己想要的数据
向其中添加数据
hive数据分析
一、分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资,并作条形图将结果展示出来;
建表并向其中加入数据
创建表添加工作名称和工资
找到自己想要的字段并加入到表中
这样就找到了三个职业的平均、最低、最高工资
二、分析三个职业在成都、北京、上海、广州、深圳的岗位数,并做饼图将结果展示出来。
创建三个表,分别表示三个职业
分别向三个表中插入数据
三、分析岗位1~3年经验的工资平均,最低,最高
四、利用sqoop将数据导入mysql
先在MySQL创建对应的表
利用sqoop将数据导入
sqoop export --connect jdbc:mysql://127.0.0.1:3306/wuyou --username root --password 111111 --table caiji --export-dir ‘/flume/20200712/26’ --fields-terminated-by ‘\t’ -m 1
数据可视化
1、三个大数据岗位工资分析
2、岗位地区分布
3、1~3年工资经验工资
4、大数据需求折线图