Hive实战

最新推荐文章于 2022-04-07 14:11:07 发布

asd623444055

最新推荐文章于 2022-04-07 14:11:07 发布

阅读量3.6k

点赞数

文章标签： hive hadoop 数据仓库

本文链接：https://blog.csdn.net/asd623444055/article/details/123503122

版权

一.数据结构

1.video表

字段	备注	详细描述
video id	视频唯一id（String）	11位字符串
uploader	视频上传者（String）	上传视频的用户名String
age	视频年龄（int）	视频在平台上的整数天
category	视频类别（Array<String>）	上传视频指定的视频分类
length	视频长度（Int）	整形数字标识的视频长度
views	观看次数（Int）	视频被浏览的次数
rate	视频评分（Double）	满分5分
Ratings	流量（Int）	视频的流量，整型数字
conments	评论数（Int）	一个视频的整数评论数
related ids	相关视频id（Array<String>）	相关视频的id，最多20个

2.user表

字段	备注	字段类型
uploader	上传者用户名	string
videos	上传视频数	int
friends	朋友数量	int

二、ETL数据清洗

1.观察原始数据显示，寻找分割规则，清洗无效数据

SDNkMu8ZT68	w00dy911	630	People & Blogs	186	10181	3.49	494	257	rjnbgpPJUks

通过观察原始数据形式，可以发现，视频可以有多个所属分类，每个所属分类用&符号分割，且分割的两边有空格字符，同时相关视频也是可以有多个元素，多个相关视频又用“\t”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作，我们首先进行数据重组清洗操作。即：将所有的类别用“&”分割，同时去掉两边空格，多个相关视频id也使用“&”进行分割。

2.根据需求进行API编写清洗数据

1.新建maven项目导入必要依赖，日志文件创建

配置pom.xml

<dependencies>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>

最低0.47元/天解锁文章

asd623444055

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hive实战

一.数据结构 1.video表字段备注详细描述 video id 视频唯一id（String） 11位字符串 uploader 视频上传者（String）上传视频的用户名String age 视频年龄（int）视频在平台上的整数天 category 视频类别（Array<String>）上传视频指定的视频分类 length 视频长度（Int）整形数字标识的...
复制链接

扫一扫