此教程是王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”第三讲:证明Hadoop工作的正确性和可靠性只需4步图文并茂的过程。
具体的PDF版本教程请猛击这里。
王家林的“云计算分布式大数据Hadoop实战高手之路”之完整目录
王家林亲授的上海7月6-7日云计算分布式大数据Hadoop深入浅出案例驱动实战
王家林把自己几年来在Hadoop上的研究和实践总结出来,并通过动手实践的方式不断深入云就算实战技术,让人人皆可学习,并从中受益。
此教程来自于王家林多年的云计算实战研究和实践心得,全部免费教材为:云计算分布式大数据Hadoop实战高手之路(共3本书):
1,王家林编写的“云计算分布式大数据Hadoop实战高手之路---从零开始”带领您无痛入门Hadoop并能够处理Hadoop工程师的日常编程工作,进入云计算大数据的美好世界。
2, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手崛起”通过数个案例实战和Hadoop高级主题的动手操作带领您直达Hadoop高手境界。
3, 王家林编写的“云计算分布式大数据Hadoop实战高手之路---高手之巅”通过当今主流的Hadoop商业使用方法和最成功的Hadoop大型案例让您直达高手之巅,从此一览众山小。
这些教程会按照实践的推移每天逐步发布,大家要多多支持喔!
更多Hadoop交流可以联系家林:
新浪微博:http://weibo.com/ilovepains
QQ:1740415547
QQ群:312494188
Weixin:wangjialinandroid
官方博客:http://www.cnblogs.com/guoshiandroid/
问题:我们怎么知道Hadoop工作是正确可靠的?
具体的实验:在hadoop的hdfs中的根目录下创建“input”目录,把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中,然后运行hadoop自带的wordcount工具把 结果输出到hdfs根目录下的output目录中,最后要验证我们的hadoop对单词个数统计的正确性。具体的操作如下:
Step 1: 在hadoop的hdfs中的根目录下创建“input”目录:
此时查看HDFS的Web控制台,出现了我们创建的“input”目录:
Step 2:把Ubuntu上本地的Hadoop安装包中的bin目录下所有以“sh”为后缀的文件拷贝到hdfs的input目录中:
此时查看HDFS的Web控制台中的“input”目录,会发现我们成功的把Ubuntu本地的文件拷贝到了hdfs的/input/目录下:
Step 3:运行hadoop自带的wordcount工具把 结果输出到hdfs根目录下的output目录并查看运行结果:
此时我们打开hdfs的Web控制台,发现出现了我们的运行结果存放文件夹“output”
打开output目录,运行结果数据存放在“part-r-00000”文件中:
打开“part-r-00000”文件中,可以看到我们的单词数统计结果如下:
Step 4:检查运行结果的正确性。
这里所说的正确性就是看Hadoop对我们多个文件中出现的单词个数的统计工作是否正确,例如我们打开bin目录下的“start-dfs.sh”文件,会发现“required”这个单词,如下所示:
此时我们使用Ubuntu自带grep工具查看一下所有目标文件中包含“required”这个单词的情况:
使用“wc”统计一下“required”这个单词出现的次数:
此时Ubuntu告诉我们bin目录下所有以.sh为结尾的文件中共有“required”这个单词的个数是14,下面我们去hdfs中查看Hadoop统计出结果:
可以看到hadoop通过MapReduce的机制统计出的结果也是14个。
至此,表明我们的Hadoop对单词的个数统计完全正确。
此时进入我们的JobTracker的Web控制台,查看我们的MapReduce任务的运行情况:
可以看到我们进行了14次Map和1次Reduce。
点击任务,可以看到运行的详细信息:
至此,我们彻底完成了实验。
原文地址:点击打开链接