在电影库中查找演员评分最高的5部电影
说在前面的话:其实这个题目有四种办法可以完成,只具体说明两种分别是:
- 使用Hdfs的Hbase就可以实现。具体是idea这边写代码将数据写入Hbase(要先定义好表结构),java有提供api用于数据的插入,再去虚拟机进入Hbase使用命令就可以查看数据,此方法要求有一定的编程基础与前面几章的认真熟练
- 使用Hive。这个对数据进行初步处理再带入Hive,Hive有提供类似于sql语句的查询。此方法简便
- 利用pig
- sqoop?
如果是自学很欢迎,如果是课程需要请关闭此页面(针对网络学子,我这样说你懂得!)希望各位好好学习,自己思考。
实验要求
- 使用hadoop工具
- 使用MapReduce 的 Mapper 编写、序列化的使用和排序
- 编写MapReduce程序,按评分从高到低排序该演员参演电影(如果同分则优先列出年份较近的,例如2000年上映的A电影和1995年上映的B电影同分,则排序应该为A,B)。
项目数据源
1.使用json格式文件,内容部分如下