菜鸟学IT之Hadoop综合大作业

孙瑞宇

于 2019-06-20 20:08:00 发布

阅读量254

点赞数

文章标签：大数据爬虫数据库

原文链接：http://www.cnblogs.com/JGaoLin/p/11055771.html

版权

Hadoop综合大作业

作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

1.将爬虫大作业产生的csv文件上传到HDFS

爬取豆瓣网战狼2电影的影评数据

把爬取到的csv文件存放到ubuntn系统中，并创建存放的文件夹bigdatacase、dataset：

把下载好的影评test.csv文件文本拷贝到dataset目录下并查看文件

查看文件的前五条数据

删除表头

2.对CSV文件进行预处理生成无标题文本文件

每个字段用\t隔开，这里有7个字段。

把处理后文件保存到txt文件中

启动hadoop

3.把hdfs中的文本文件最终导入到数据仓库Hive中

在HDFS上建立/bigdatacase/dataset文件夹，将文件上传

测试查看存放到hdfs上test文件是否成功

启动mysql

4.在Hive中查看并分析数据

创建bdlad库

5.用Hive对爬虫大作业产生的进行数据分析，写一篇博客描述你的分析过程和分析结果。（10条以上的查询分析）

由于数据库会自动加序号一列，所以在配置文件哪里修改一下文件，不要第一列。即（$1）不需要了。

重新载入修改好文件test并创建表，并查看前十条数据

统计给分力荐的人数

统计给分为还行的人数

统计给分为较差的人数

结论：由上述的评价中，影迷们对战狼2也是给好评居多，对战狼2也是喜欢的。

查出uid不重复的数据有多少条

分析：爬取去了1500条数据（没有使用代理IP），不重复率100%。

查询在'2019/3/1'到'2019/4/1'时间段评论的人数

查询在'2019/1/1'到'2019/3/1'时间段评论的人数

分析：随着时间发展，战狼2的热度逐渐减退。影迷也是在首播观看战狼2的人数居多，这才是真爱。

查询评论点赞前十的小伙伴是给出什么评分

分析：由数据可以看出，点赞最多的前十评论。给出的评价都是相对来说是好评，说明这个数据是好评。

统计评论里面人们给出的评分

分析：由数据可以得出，影迷们给出的评价都是推荐观看战狼2，经典你值得拥有。

转载于:https://www.cnblogs.com/JGaoLin/p/11055771.html

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。