大数据实训

利用scrapy框架写爬虫爬取招聘网,存入mongodb数据库,用flume传到hdfs上,用hive分析结果利用sqoop技术存储到mysql数据库中,并将数据可视化

搭建爬虫并爬取数据

爬虫文件
在这里插入图片描述
跑取字段
在这里插入图片描述
mongodb存储数据
在这里插入图片描述
在这里插入图片描述
将mongodb数据导出为csv文件
在这里插入图片描述

配置flume传文件到hdfs

这里虚拟机要使用的环境都已配置好
编写hdfs_template.conf文件
在这里插入图片描述
启动flume并将csv文件传入虚拟机flume监控的文件夹下
查看hdfs
在这里插入图片描述
启动hive,创建表并导入数据
在这里插入图片描述
创建表查询自己想要的数据
在这里插入图片描述
向其中添加数据
在这里插入图片描述

hive数据分析

一、分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资,并作条形图将结果展示出来;
建表并向其中加入数据
创建表添加工作名称和工资

在这里插入图片描述
找到自己想要的字段并加入到表中
在这里插入图片描述
这样就找到了三个职业的平均、最低、最高工资
在这里插入图片描述
二、分析三个职业在成都、北京、上海、广州、深圳的岗位数,并做饼图将结果展示出来。
创建三个表,分别表示三个职业
在这里插入图片描述
分别向三个表中插入数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
三、分析岗位1~3年经验的工资平均,最低,最高
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
四、利用sqoop将数据导入mysql
先在MySQL创建对应的表
在这里插入图片描述
利用sqoop将数据导入
sqoop export --connect jdbc:mysql://127.0.0.1:3306/wuyou --username root --password 111111 --table caiji --export-dir ‘/flume/20200712/26’ --fields-terminated-by ‘\t’ -m 1

在这里插入图片描述
数据可视化
1、三个大数据岗位工资分析
在这里插入图片描述
在这里插入图片描述
2、岗位地区分布
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3、1~3年工资经验工资
在这里插入图片描述
在这里插入图片描述
4、大数据需求折线图
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值