需求:
统计Youtube视频网站的常规指标,各种TopN指标:
--统计视频观看数Top10
--统计视频类别热度Top10
--统计视频观看数Top20所属类别包含这Top20视频的个数
--统计视频观看数Top50所关联视频的所属类别Rank
--统计每个类别中的视频热度Top10
--统计每个类别中视频流量Top10
--统计上传视频最多的用户Top10以及他们上传的视频
--统计每个类别视频观看数Top10
二、知识储备梳理
2.1、order by,sort by,distribute by,cluster by
背景表结构
在讲解中我们需要贯串一个 例子,所以需要设计一个情景,对应 还要有一个表结构和填充数据。如下:有3个字段,分别为personId标识某一个人,company标识一家公司名称,money标识该公司每年盈利收入(单位:万元人民币)
personId |
company |
money |
p1 |
公司1 |
100 |
p2 |
公司2 |
200 |
p1 |
公司3 |
150 |
p3 |
公司4 |
300 |
建表导入数据:
create table company_info( personId string, company string, money float )row format delimited fields terminated by "\t" load da |
create table company_info( |