4.1 统计视频观看数 Top10
思路:使用 order by 按照 views 字段做一个全局排序即可,同时我们设置只显示前 10
条。
最终代码:
SELECT
videoId,
views
FROM
gulivideo_orc
ORDER BY
views DESC
LIMIT 10;
4.2 统计视频类别热度 Top10
思路:
(1)即统计每个类别有多少个视频,显示出包含视频最多的前 10 个类别。
(2)我们需要按照类别 group by 聚合,然后 count 组内的 videoId 个数即可。
(3)因为当前表结构为:一个视频对应一个或多个类别。所以如果要 group by 类别,
需要先将类别进行列转行(展开),然后再进行 count 即可。
(4)最后按照热度排序,显示前 10 条。
最终代码:
SELECT
t1.category_name ,
COUNT(t1.videoId) hot
FROM
(
SELECT
videoId,
category_name
FROM
gulivideo_orc
lateral VIEW explode(category) gul

本文介绍了使用Hive进行视频数据分析的多个实战案例,包括统计视频观看数Top10、视频类别热度Top10、观看数最高视频的所属类别及类别内Top10视频、视频观看数Top50的类别排序、特定类别视频热度Top10以及上传视频最多的用户及其视频等。
订阅专栏 解锁全文
455

被折叠的 条评论
为什么被折叠?



