flume监控本地文件并同步到hdfs进行数据查询与分析

总体要求
利用python编写爬虫程序,从招聘网站上爬取数据,将数据存入到MongoDB数据库中,将存入的数据作一定的数据清洗后做数据分析,最后将分析的结果做数据可视化。
**

前期准备
**
1、配置大数据需要的环境
(1)配置Hadoop环境:可看博客:
(2)配置zookeeper环境:https://blog.csdn.net/weixin_44701468/article/details/106822805
(3)配置spark环境:
(3)配置hive环境:
(3)配置spark环境:
2、下载好需要的数据库:Mysql、MangoDB
3、准备好需要的数据:
在这里插入图片描述
爬取的是招聘网站前程无忧,由于爬取的一个数据不是很多,我就爬取了几个分别保存到了几个表中,大约有个百多兆的数据(数据量越多越好),第一次学习

具体实现过程
1、编写爬虫框架,爬取数据
建议博客:https://blog.csdn.net/weixin_43581288/article/details/106950359
里面有需要爬虫的字段,保存到的数据库,以及一些其他的要求
2、数据存储
正确搭建hadoop平台
在这里插入图片描述
选择flume协议传输形式

启动flame:
在这里插入图片描述

flume-ng agent -n agent1 -c conf -f /usr/module/flume/apache-flume-1.6.0-bin/conf/template-hdfs.conf -Dflume.root.logger=DEBUG,console

1
2
上传数据至目录:

将数据存储到hdfs:
在这里插入图片描述

3、进行hive查询:
1、具体要求(要求:1、利用hive进行分析,2、将hive分析结果利用sqoop技术存储到mysql数据库中,并最后显示分析结果。):
(1)分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资,并作条形图将结果展示出来;
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(2)分析“数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州、深圳的岗位数,并做饼图将结果展示出来。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(3)分析大数据相关岗位1-3年工作经验的薪资水平(平均工资、最高工资、最低工资),并做出条形图展示出来;
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(4)分析大数据相关岗位几年需求的走向趋势,并做出折线图展示出来;
在这里插入图片描述
总结:
项目使用爬虫、数据库、大数据分析等方法来完成,对爬虫的认识,使用、数据库(mangodb)的使用、大数据知识的运用都是很好的。爬虫有爬虫框架的搭建,代码的编写对我来说都是一个不小的难题,但通过查资料、和同学的探讨让我解决了这些问题,数据库(mangodb)使用还不是特别熟练,大数据各种环境的搭建也是一个不小的难题,配置的环境也是不少,我也是用来不少的时间来做这个事,在这其中还是有的。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值