hadoop学习001

原创 2015年11月21日 12:14:45

1,mac安装eclipse

2,在eclipse上配置hadoop开发环境

3,重写hadoop中wordcount例子

  • 新建Map/Reduce Project,写入wordcount源码
  • 如果GenericOptionsParser类找不到,则在Build Path的Libraries添加位于hadoop目录下build/ivy/lib/Hadoop/Common下的commons-cli-1.2.jar包
  • 在工程目录下添加in文件夹,并添加若干个文本文件,使用Run on Hadoop编译
  • 编译中出现NoClassDefFoundError :org/apache/commons/logging/LogFactory异常,则需要添加Commons-logging-1.0.4.jar包
  • 运行后结果中只有usage <in> <out>,选择Run Configuration设置入口参数为 in out
  • 成功运行后工程目录会出现out文件夹,cat out/*查看文件内容即为结果
4,wordcount分析
  • 定义Configuration对象管理配置文件,Configuraton conf = new Configuration(); 应该是采用默认配置
  • 定义Job,并起个名字,Job job = new Job(conf, "word count");
  • 设置Mapper类,Combiner类,Reducer类,job.setMapperClass(TokenizerMapper);
  • 设置输出的key和value类型,job.setOutputKeyClass(Text.class);
  • 设置输入输出文件目录,FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
  • Hadoop的核心思想是分而治之,即由Mapper函数划分工作,Reducer函数汇总结果
  • 针对wordcount的处理过程如下:

注释:

  • 输入为两个文件,mapper则划分成两个任务(红,绿)
  • mapper输入为<首字母偏移, 一行内容>
  • combiner相当于本地的reducer,是hadoop的一种优化策略,可在一定程度上减少网络间数据传输量

  



版权声明:本文为博主原创文章,未经博主允许不得转载。

相关文章推荐

Hadoop学习笔记001——Linux环境配置(001)

一、配置VMware     1.配置vmnetcfg(如图) 将VMnet1配置为仅主机模式,并配置子网IP为:192.168.8.0(可自行配置) 将Windows上的虚拟网卡改成跟Linux上...

Hadoop大象之旅001-安装VMware虚拟机

VMware虚拟机允许一台真实的电脑在一个操作系统中同时开启并运行数个操作系统,我的操作系统是Windows7x64,而Hadoop需要运行在Linux系统上。我们就需要在Windows7上安装VMW...

001潜入大数据Hadoop框架的世界

我的大数据初步学习路线图 了解云计算技术 学习Hadoop基础概念 hadoop HDFS文件系统的特征 什么是Map/Reduce Mapreduce 整个工作机制图 Hadoop mapper...

机器学习笔记 001

机器学习机器学习概念 机器学习,通常的机器指的是“计算机”,机器学习就是让计算机自己学习。最主要的思想是“统计”和“分类”。 通常的是给计算机一些指令,然后计算机进行处理;而机器学习主要是分析数据,产...
  • Gssol
  • Gssol
  • 2017-06-19 17:56
  • 199

java学习笔记001之正则表达式贪婪型、勉强型和占有型p299

越总结越清晰!!2015.6.2

java语言学习001_她的来由(历史)

自从 1946 年世界上第一台电子计算机问世以来,计算模式的发展经历了三个阶 段:集中计算模式、分散计算模式和网络计算模式。 Internet 的出现,为在网络 计...

cocos2d学习-001

在http://code.google.com/p/cocos2d-iphone/找到该开源2D引擎的官方公开项目以及最新版。    在http://www.cocos2d-iphone.org/找到...

Android学习随笔(001) 简谈lockCanvas(Rect dirty)

昨天刚开始摸索Surface这个东西,在用到 lockCanvas(Rect dirty)这个接口的时候一直没有出来自己想要的效果,网上搜了一下不得要领,后来看到“双缓冲”这几个字突然蹦出来一丝灵感,...
  • gymsun
  • gymsun
  • 2013-01-18 12:51
  • 2985

Struts2学习笔记——001配置Strut2

1,软件版本介绍:MyEclipse10.0版本、tomcat6.0版本、Struts2-2.3.16.3版本。 可以从下面的网址中下载需要的的资源: 1.         下载struts2.1....

Java基础之001-学习资源的选择

1、 工欲善其事,必先利其器        学习是一种能力。站在巨人的肩膀上,才能站的更高,走的更远。为了学习java,我在网络上探寻了很长时间,最终选择了传智播客的免费教学视频(绝非广告,个人...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:深度学习:神经网络中的前向传播和反向传播算法推导
举报原因:
原因补充:

(最多只允许输入30个字)