Hadoop综合大作业

Hadoop综合大作业 要求:

1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件

喜剧电影:

剧情电影

 

3.把hdfs中的文本文件最终导入到数据仓库Hive中

创建数据库:

 

创建comedy表:

 创建plot表:

 

 

4.在Hive中查看并分析数据

查看喜剧电影高分的电影名和年份,可以根据最近的年份选择自己喜欢的喜剧电影

 查看喜剧电影评论数最多的前10项

 

查看评分最高的前10项喜剧电影信息

 查看年份为2018,评分大于8.0分的剧情电影

 查看喜剧电影前20项信息

 查看剧情电影的前15项

 剧情电影评分大于9.0以上的

 

转载于:https://www.cnblogs.com/mgf69/p/11043753.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值