MapReduce编程初级实践
1.通过实验掌握基本的MapReduce编程方法;
2.掌握用MapReduce解决一些常见的数据处理问题,包括数据去重、数据排序和数据挖掘等。
1.编程实现文件合并和去重操作
参考 MapReduce编程初级实践
记住要让A.txt和B.txt都放在 usr/local/hadoop/input 里面,然后确保 usr/local/hadoop 下面没有output这个文件
如下图所示:
-
1.上传文件到hadoop
- hadoop fs -put scr dst 2.复制文件到hadoop
- hadoop fs -copyFromLocal -f scr dst 3.删除hadoop的某个文件
- hadoop fs -rm file 4.删除hadoop的某个文件及里面的文件和文件夹(递归删除)
- hadoop fs -rm -r file
2. 编写程序实现对输入文件的排序
参考 MapReduce编程初级实践
记住要让1.txt和2.txt都放在 usr/local/hadoop/input 里面,然后确保 usr/local/hadoop 下面没有 output 这个文件
此处省略图片
图
3. 对给定的表格进行信息挖掘
参考 Hadoop实验——MapReduce编程
记住要让child-parent.txt都放在 usr/local/hadoop/input3 里面,然后确保 usr/local/hadoop 下面没有 output3 这个文件
此处也有图
图