hive练习之[影评案例]

最新推荐文章于 2020-06-05 09:41:58 发布

lemonlhy

最新推荐文章于 2020-06-05 09:41:58 发布

阅读量1.6k

点赞数

分类专栏：大数据文章标签： hive

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lemonlhy/article/details/79922888

版权

该博客介绍了如何使用Hive对影评数据进行清洗、建表和分析。内容包括数据清洗、创建Hive表、查询最受欢迎的电影、不同性别评分最高的电影、特定电影各年龄段平均评分、高分电影年份及类型、各类型电影评价排名、每年评分最高电影类型等操作步骤。

摘要由CSDN通过智能技术生成

现有如此三份数据：

1、users.dat 数据格式为： 2::M::56::16::70072

对应字段为：UserID BigInt, Gender String, Age Int, OccupationString, Zipcode String

对应字段中文解释：用户id，性别，年龄，职业，邮政编码

2、movies.dat 数据格式为： 2::Jumanji(1995)::Adventure|Children's|Fantasy

对应字段为：MovieID BigInt, Title String, Genres String

对应字段中文解释：电影ID，电影名字，电影类型

3、ratings.dat 数据格式为： 1::1193::5::978300760

对应字段为：UserID BigInt, MovieID BigInt, Rating Double,Timestamped String

对应字段中文解释：用户ID，电影ID，评分，评分时间戳

题目要求：

数据要求：

（1）写shell脚本清洗数据。（hive不支持解析多字节的分隔符，也就是说hive只能解析':', 不支持解析'::'，所以用普通方式建表来使用是行不通的，要求对数据做一次简单清洗）

（2）使用Hive能解析的方式进行

Hive要求：

（1）正确建表，导入数据（三张表，三份数据），并验证是否正确

（2）求被评分次数最多的10部电影，并给出评分次数（电影名，评分次数）

（3）分别求男性，女性当中评分最高的10部电影（性别，电影名，影评分）

（4）求movieid = 2116这部电影各年龄段（因为年龄就只有7个，就按这个7个分就好了）的平均影评（年龄段，影评分）

（5）求最喜欢看电影（影评次数最多）的那位女性评最高分的10部电影的平均影评分（观影者，电影名，影评分）

（6）求好片（评分>=4.0）最多的那个年份的最好看的10部电影

（7）求1997年上映的电影中，评分最高的10部Comedy类电影

（8）该影评库中各种类型电影中评价最高的5部电影（类型，电影名，平均影评分）

（9）各年评分最高的电影类型（年份，类型，影评分）

（10）每个地区最高评分的电影名，把结果存入HDFS（地区，电影名，影评分）

1.首先使用命令对数据进行数据清洗

[hadoop@hadoop02 movierating]$ sed -i 's/::/,/g'users.dat

[hadoop@hadoop02 movie

最低0.47元/天解锁文章

关注

0
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
hive练习之[影评案例]

现有如此三份数据：1、users.dat 数据格式为： 2::M::56::16::70072对应字段为：UserID BigInt, Gender String, Age Int, OccupationString, Zipcode String对应字段中文解释：用户id，性别，年龄，职业，邮政编码 2、movies.dat 数据格式为： 2::Jumanji(1995)::A...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。