Hadoop综合大作业

通过对《何以为家》电影评论的大数据分析,发现该电影满意度高,5分评论占比大,北上广深观影评论最多,上映首日即获大量好评。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

一、将爬虫大作业产生的csv文件上传到HDFS

 

 

 

二、对CSV文件进行预处理生成无标题文本文件

 

 

三、把hdfs中的文本文件最终导入到数据仓库Hive中

 

 

四、在Hive中查看并分析数据

 

五、用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

1、查询总共有多少条评论数据

分析:从查询的数据可以看出,爬取到的《何以为家》评论中,总共有13778条评论数据。

 

2、查询不重复ID的评论数

分析:去掉重复id之后,查询到共有9293名用户参与《何以为家》这部电影的评论。

 

3、查询评论数前20名的城市

分析:从以上查询到的数据显示,北上广深的观影用户排名前四,深圳位居榜首。

 

4、查询各个评分等级的数量

分析:从以上评分等级的数量分布来看,评分4.0以上的占非常大一部分,可以看出大家对这部电影还是相当满意。

 

5、查询上映第一天的评论量

分析:查询到上映当天的评论数为896条,也就是上映的两个钟里就有近千名用户参与评论。

 

6、查询上映第一天评分为5分的评论数

分析:从上映当天896条数据中,查询出其中有604位观众给了5分评价,可见这部电影的评价是很高的。

 

7、查询评论次数最多的20个用户

分析:查询出评论数最多的前20个用户,由于评分只能评一次,推断出这20名用户至少4刷了这部电影。

 

8、查询城市中评分为5分的数量最多的前20名

分析:查询了评5分最多的前20名城市,其中北上广深由于参评用户多,固然居于前五名,成都值得一提,超过了上海。

 

9、查询城市中评分低于2分的数量最多的前20名

分析:查询了评分低于2分的用户数排名前20的城市发现,参评用户数第三的北京仅排到第11位,可见北京的观众反响还是不错的。

 

10、查询深圳评分等级的分布情况

分析:深圳作为参评人数最多的城市,从以上查询的数据可知,绝大部分的观众给出的分数都为3.5以上,总体上满意度还挺高。

 

总结:综上所述,《何以为家》这部电影的满意度很高,给出5分的观众占了评论总数的绝大部分,从观影评论的地区来看,像北上广深这种经济发展较快的城市会观影较多,而发展较慢的城市观影人数也会相应的减少。从上映第一天的评分情况也可以看出这部电影的反响很不错。总的来说,《何以为家》这部电影还是值得大家去观看的~

转载于:https://www.cnblogs.com/sanshuishu/p/11024106.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值