hive 项目实战 (1) 谷粒影音需求分析

该博客介绍了在一个名为'谷粒影音'的项目中,使用Hive进行数据清洗和ETL处理的需求分析。数据源来自video.txt文件,包含了视频ID、上传者、视频年龄、类别、长度等信息。ETL需求包括:过滤字段不足10个的记录,将视频ID的分隔符从制表符改为'&',以及去除视频类别ID中的空格。文中还提到了具体的代码实现。
摘要由CSDN通过智能技术生成

 数据源 video.txt  

数据样例:

fQShwYqGqsw    lonelygirl15    736    People & Blogs    133    151763    3.01    666    765    fQShwYqGqsw    LfAaY1p_2Is    5LELNIVyMqo    vW6ZpqXjCE4    vPUAf43vc-Q    ZllfQZCc2_M    it2d7LaU_TA    KGRx8TgZEeU    aQWdqI1vd6o    kzwa8NBlUeo    X3ctuFCCF5k    Ble9N2kDiGc    R24FONE2CDs    IAY5q60CmYY    mUd0hcEnHiU    6OUcp6UJ2bA    dv0Y_uoHrLc    8YoxhsUMlgA    h59nXANN-oo    113yn3sv0eo
数据样例中的字段结构:

视频唯一 id    11 位字符串
视频上传者    上传视频的用户名 String
视频年龄    视频上传日期和 2007 年 2 月
15 日之间的整数天
视频类别    上传视频指定的视频分类
视频长度    整形数字标识的视频长度
观看次数    视频被浏览的次数
视频评分    满分 5 分
流量    视频的流量,整型数字
评论数    一个视频的整数评论数
相关视频 id    相关视频的 id,最多 20 个
 

etl 需求 第一 字段数量小于10个直接清洗掉 第二 视频id 原来是用\t 分割 现在改用 &分割  第三 视频类别id 里面有空格 把空格去掉

 

代码展示 

// 一个文件小于128m就对应一个mapper  大于128m就对应多个mapper
    public static class EtlMappe
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值