hadoop学习001

原创 2015年11月21日 12:14:45

1,mac安装eclipse

2,在eclipse上配置hadoop开发环境

3,重写hadoop中wordcount例子

  • 新建Map/Reduce Project,写入wordcount源码
  • 如果GenericOptionsParser类找不到,则在Build Path的Libraries添加位于hadoop目录下build/ivy/lib/Hadoop/Common下的commons-cli-1.2.jar包
  • 在工程目录下添加in文件夹,并添加若干个文本文件,使用Run on Hadoop编译
  • 编译中出现NoClassDefFoundError :org/apache/commons/logging/LogFactory异常,则需要添加Commons-logging-1.0.4.jar包
  • 运行后结果中只有usage <in> <out>,选择Run Configuration设置入口参数为 in out
  • 成功运行后工程目录会出现out文件夹,cat out/*查看文件内容即为结果
4,wordcount分析
  • 定义Configuration对象管理配置文件,Configuraton conf = new Configuration(); 应该是采用默认配置
  • 定义Job,并起个名字,Job job = new Job(conf, "word count");
  • 设置Mapper类,Combiner类,Reducer类,job.setMapperClass(TokenizerMapper);
  • 设置输出的key和value类型,job.setOutputKeyClass(Text.class);
  • 设置输入输出文件目录,FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
  • Hadoop的核心思想是分而治之,即由Mapper函数划分工作,Reducer函数汇总结果
  • 针对wordcount的处理过程如下:

注释:

  • 输入为两个文件,mapper则划分成两个任务(红,绿)
  • mapper输入为<首字母偏移, 一行内容>
  • combiner相当于本地的reducer,是hadoop的一种优化策略,可在一定程度上减少网络间数据传输量

  



版权声明:本文为博主原创文章,未经博主允许不得转载。

从零学习Hadoop--001Hadoop的起源与体系介绍

Google面对的数据和计算难题 1>大量的网页怎么存储呢? 传统是买一个很大很大的存储设备。 是存到各个pc服务器的内存中,加快,采取了冗余的办法。 2>搜索算法 响应时间是0.00000...

hadoop伪分布部署001(详细菜鸟专属频道)

第一次发文章 纯属个人学习rizhi

001、Hadoop安装配置

说明:hadoop安装,一共有三种部署方式,分别是本地部署、伪分布部署、集群部署。这里我们以伪分布模式为例进行讲解。 软件:CentOS-6.5-i386-minimal.iso,jdk-6u21-...

Hadoop学习笔记001——Linux环境配置(001)

一、配置VMware     1.配置vmnetcfg(如图) 将VMnet1配置为仅主机模式,并配置子网IP为:192.168.8.0(可自行配置) 将Windows上的虚拟网卡改成跟Linux上...

hadoop-3.0.0-beta1运维手册(001):定制虚拟机

01 定制虚拟机 1.1 什么是虚拟机 虚拟机是一个软件,运行在我们的计算机上,通过它可以模拟一台计算机。 虚拟机和真实的物理机器一样,也有CPU、硬盘、网卡、内存这些硬件,在虚拟机上同样可以安装操作...
  • aishuc
  • aishuc
  • 2017年11月27日 21:09
  • 34

001潜入大数据Hadoop框架的世界

我的大数据初步学习路线图 了解云计算技术 学习Hadoop基础概念 hadoop HDFS文件系统的特征 什么是Map/Reduce Mapreduce 整个工作机制图 Hadoop mapper...

001、Hadoop安装配置

说明:hadoop安装,一共有三种部署方式,分别是本地部署、伪分布部署、集群部署。这里我们以伪分布模式为例进行讲解。 软件:CentOS-6.5-i386-minimal.iso,jdk-6u21-...

001、Hadoop安装配置

说明:hadoop安装,一共有三种部署方式,分别是本地部署、伪分布部署、集群部署。这里我们以伪分布模式为例进行讲解。 软件:CentOS-6.5-i386-minimal.iso,jdk-6u21-...

001、Hadoop安装配置

说明:hadoop安装,一共有三种部署方式,分别是本地部署、伪分布部署、集群部署。这里我们以伪分布模式为例进行讲解。 软件:CentOS-6.5-i386-minimal.iso,jdk-6u21-...

Hadoop大象之旅001-安装VMware虚拟机

VMware虚拟机允许一台真实的电脑在一个操作系统中同时开启并运行数个操作系统,我的操作系统是Windows7x64,而Hadoop需要运行在Linux系统上。我们就需要在Windows7上安装VMW...
  • shuaihj
  • shuaihj
  • 2014年11月22日 21:56
  • 2073
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:hadoop学习001
举报原因:
原因补充:

(最多只允许输入30个字)