Hadoop综合大作业 要求:
1.将爬虫大作业产生的csv文件上传到HDFS
2.对CSV文件进行预处理生成无标题文本文件
喜剧电影:
剧情电影
3.把hdfs中的文本文件最终导入到数据仓库Hive中
创建数据库:
创建comedy表:
创建plot表:
4.在Hive中查看并分析数据
查看喜剧电影高分的电影名和年份,可以根据最近的年份选择自己喜欢的喜剧电影
查看喜剧电影评论数最多的前10项
查看评分最高的前10项喜剧电影信息
查看年份为2018,评分大于8.0分的剧情电影
查看喜剧电影前20项信息
查看剧情电影的前15项
剧情电影评分大于9.0以上的