hive项目开发前奏--数据清洗

最新推荐文章于 2024-06-28 14:26:08 发布

麦嘟学编程

最新推荐文章于 2024-06-28 14:26:08 发布

阅读量982

点赞数

分类专栏：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lydia88/article/details/96150038

版权

大数据专栏收录该内容

16 篇文章 0 订阅

订阅专栏

从网上爬取下来的数据一定要通过mapreduce清晰后，才方便hive操作，今天对项目案例的视频数据进行清洗。

1.创建maven工程，在pom.xml配置所需的jar包

<dependency>
           <groupId>junit</groupId>
           <artifactId>junit</artifactId>
           <version>4.12</version>
           <scope>test</scope>
       </dependency>

       <dependency>
           <groupId>org.apache.hadoop</groupId>
           <artifactId>hadoop-client</artifactId>
           <version>2.7.6</version>
       </dependency>

       <dependency>
           <groupId>org.apache.hadoop</groupId>
           <artifactId>hadoop-yarn-server-resourcemanager</artifactId>
           <version>2.7.6</version>
       </dependency>

       <dependency>
           <groupId>org.apache.hive</groupId>
           <artifactId>hive-exec</artifactId>
           <version>1.2.2</version>
       </dependency>

2.编写代码

3.打包成jar

-P local clean package

将打包后的文件上传到到虚拟机中，我使用的是直接在mac搭建的hadoop,hive，无需上传，为方便操作将jar文件复制到用户·目录下。

4.将测试数据上传到hdfs上

hdfs dfs -put ~/Desktop/youtube/ /

5.执行

bin/yarn jar ~/youtube.jar com.yc.etl.VideoETLRunner /youtube/video/2008/0222 /youtube/output/video/2008/0222

6.可以到output上查看数据，按格式清洗。

这样数据的清洗工作就完成了。

麦嘟学编程

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

麦嘟学编程 CSDN认证博客专家 CSDN认证企业博客

码龄14年

141: 原创

2万+: 周排名

1万+: 总排名

32万+: 访问

: 等级

4435: 积分

1584: 粉丝

562: 获赞

83: 评论

892: 收藏

私信

关注

热门文章

分类专栏

IDEA 3篇
Hadoop学习 37篇
SQL Server 1篇
C++ 2篇
Spring 1篇
前端技术 3篇
数据结构 2篇
redis 1篇
oracle 19篇
Photoshop 1篇
javascript 4篇
J2SE 24篇
JAVAWEB 18篇
HTML+CSS 5篇
Python 4篇
算法 5篇
框架 11篇
设计模式 1篇
美工
网站设计 4篇
Adnroid 1篇
Linux 15篇
Maven 3篇
大数据 16篇
mysql 11篇
中间件 2篇
C语言 2篇

最新评论

17 如何查看Hadoop中wordCount源码
Byyyi耀: 文章写得很详细，内容丰富，对我帮助很大，感谢作者！加个关注呗，会持续关注你的文章！
17 如何查看Hadoop中wordCount源码
Byyyi耀: 文章写得很详细，内容丰富，对我帮助很大，感谢作者！加个关注呗，会持续关注你的文章！
centos7网卡无法启动
NingWest: 亲测有用
24 使用MapReduce编程统计各科目成绩最高的学生
2301_78538127: 请问一下，有没有直接写map和reduce不用写Student的也能写出来的方法吗？
Hive 基本操作
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。