Hive项目实战一

1.需求描述

统计某视频网站的常规指标,各种 TopN 指标:
        视频观看数 Top10
        视频类别热度 Top10
        视频观看数 Top20 所属类别包含这 Top20 视频的个数
        视频观看数 Top50 所关联视频的所属类别的热度排名
        每个类别中的视频热度 Top10,以Music为例
        每个类别中视频流量 Top10,以Music为例
        上传视频最多的用户 Top10 以及他们上传的视频
        每个类别视频观看数 Top10

2.数据源结构说明

数据源1: user.txt

数据样例:     



  • barelypolitical        151        5106
     


  • bonk65        89        144
     


  • camelcars        26        674

     

数据样例中的三个字段结构:

上传者用户名string
上传视频数int
朋友数量int

数据源2: video.txt  

数据样例:

fQShwYqGqsw        lonelygirl15        736        People & Blogs        133        151763        3.01        666        765        fQShwYqGqsw        LfAaY1p_2Is        5LELNIVyMqo        vW6ZpqXjCE4        vPUAf43vc-Q        ZllfQZCc2_M        it2d7LaU_TA        KGRx8TgZEeU        aQWdqI1vd6o        kzwa8NBlUeo        X3ctuFCCF5k        Ble9N2kDiGc        R24FONE2CDs        IAY5q60CmYY        mUd0hcEnHiU        6OUcp6UJ2bA        dv0Y_uoHrLc        8YoxhsUMlgA        h59nXANN-oo        113yn3sv0eo

数据样例中的字段结构:

视频唯一 id11 位字符串
视频上传者上传视频的用户名 String
视频年龄视频上传日期和 2007 年 2 月
15 日之间的整数天
视频类别上传视频指定的视频分类
视频长度整形数字标识的视频长度
观看次数视频被浏览的次数
视频评分满分 5 分
流量视频的流量,整型数字
评论数一个视频的整数评论数
相关视频 id相关视频的 id,最多 20 个

上面只是拿出了一两条数据来介绍数据集的结构,在后续项目中要用到的数据集可以自行下载

链接:   https://pan.baidu.com/s/1sDoLsG3JUwi8BPleL2jzWQ 密码: tgn5

数据集下载后可能不容易看出分隔符,可以用notepad++打开然后选择显示所有字段

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值