数据源 video.txt
数据样例:
fQShwYqGqsw lonelygirl15 736 People & Blogs 133 151763 3.01 666 765 fQShwYqGqsw LfAaY1p_2Is 5LELNIVyMqo vW6ZpqXjCE4 vPUAf43vc-Q ZllfQZCc2_M it2d7LaU_TA KGRx8TgZEeU aQWdqI1vd6o kzwa8NBlUeo X3ctuFCCF5k Ble9N2kDiGc R24FONE2CDs IAY5q60CmYY mUd0hcEnHiU 6OUcp6UJ2bA dv0Y_uoHrLc 8YoxhsUMlgA h59nXANN-oo 113yn3sv0eo
数据样例中的字段结构:
视频唯一 id 11 位字符串
视频上传者 上传视频的用户名 String
视频年龄 视频上传日期和 2007 年 2 月
15 日之间的整数天
视频类别 上传视频指定的视频分类
视频长度 整形数字标识的视频长度
观看次数 视频被浏览的次数
视频评分 满分 5 分
流量 视频的流量,整型数字
评论数 一个视频的整数评论数
相关视频 id 相关视频的 id,最多 20 个
etl 需求 第一 字段数量小于10个直接清洗掉 第二 视频id 原来是用\t 分割 现在改用 &分割 第三 视频类别id 里面有空格 把空格去掉
代码展示
// 一个文件小于128m就对应一个mapper 大于128m就对应多个mapper
public static class EtlMappe