目录
(5)统计出视频观看数最高的 20 个视频的所属类别以及类别包含Top20 视频的个数
(7)统计每个类别中的视频热度 Top10,以 Music 为例
(9)统计上传视频最多的用户 Top10以及他们上传的视频观看次数在前 20 的视频
一、执行计划
关键字:EXPLAIN
explain extended select * from emp;
explain extended select deptno, avg(sal) avg_sal from emp group by deptno;
二、Fetch 抓取
Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,Hive 可以简单地读取 employee 对应的存储目录下的文件,然后输出查询结果到控制台。
在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不走mapreduce。
三、本地模式
大多数的 Hadoop Job 是需要 Hadoop 提供的完整的可扩展性来处理大数据集的。不过,有时 Hive 的输入数据量是非常小的。在这种情况下,为查询触发执行任务消耗的时间可能会比实际 job