从网上爬取下来的数据一定要通过mapreduce清晰后,才方便hive操作,今天对项目案例的视频数据进行清洗。
1.创建maven工程,在pom.xml配置所需的jar包
<dependency>
<groupId>junit</groupId>
<artifactId>junit</artifactId>
<version>4.12</version>
<scope>test</scope>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>2.7.6</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-yarn-server-resourcemanager</artifactId>
<version>2.7.6</version>
</dependency>
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>1.2.2</version>
</dependency>
2.编写代码
3.打包成jar
-P local clean package
将打包后的文件上传到到虚拟机中,我使用的是直接在mac搭建的hadoop,hive,无需上传,为方便操作将jar文件复制到用户·目录下。
4.将测试数据上传到hdfs上
hdfs dfs -put ~/Desktop/youtube/ /
5.执行
bin/yarn jar ~/youtube.jar com.yc.etl.VideoETLRunner /youtube/video/2008/0222 /youtube/output/video/2008/0222
6.可以到output上查看数据,按格式清洗。
这样数据的清洗工作就完成了。