通过编程实现数据去重排序并导出jar在终端运行
本次实验中创建的class是在上一次wordcount中完成的 (因此导入的jar与上次一致) 可参考那篇博客导包:
题目内容
对数据文件中的数据进行去重。数据文件中的每行都是一个数据。
输入如下所示:
2012-3-1 a
2012-3-2 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-7 c
2012-3-3 c
2012-3-1 b
2012-3-2 a
2012-3-3 b
2012-3-4 d
2012-3-5 a
2012-3-6 c
2012-3-7 d
2012-3-3 c
输出如下所示:
2012-3-1 a
2012-3-1 b
2012-3-2 a
2012-3-2 b
2012-3-3 b
2012-3-3 c
2012-3-4 d
2012-3-5 a
2012-3-6 b
2012-3-6 c
2012-3-7 c
2012-3-7 d
创建word3、word4
本次实验将继续在wordcount文件夹中完成
打开上次创建的wordcount文件夹
创建word3、word4 写入内容
vim word3.txt
vim word4.txt
启动hadoop
cd /usr/local/hadoop
./sbin/start-dfs.sh
在hdfs文件系统上创建input2
hdfs dfs -mkdir /user/hadoop/input2
将word3、word4上传到input2中
hdfs dfs -put ~/wordcount/word3.txt /user/hadoop/input2
hdfs dfs -put ~/wordcount/word4.txt /user/hadoop/input2
查看是否上传成功
hdfs dfs -ls /user/hadoop/input2
打开eclipse编写代码
代码如下:
package wordcount1;
import java.io.IOException;