hadoop学习笔记-4-eclipse运行MapReduce

本文档介绍了如何在Eclipse中安装、配置并运行Hadoop MapReduce程序。首先,详细讲述了Eclipse的安装步骤,然后指导如何配置Hadoop插件,包括设置Hadoop安装目录及MapReduce相关配置。接着,提到了如何在Eclipse中创建MapReduce项目,并将示例程序(wordcount)导入。最后,阐述了运行MapReduce程序的配置,如输入输出目录的指定,以及运行过程中可能遇到的问题和解决办法。
摘要由CSDN通过智能技术生成

Eclipse安装

1.      下载eclipse安装包:eclipse-SDK-4.2.1-Linux.tar.gz

2.      解压到指定目录:例如/usr/local

3.      运行./eclipse即可

 

使用Eclipse开发MapReduce程序

1.      将hadoop安装目录的contribute/eclipse-plugin中的jar包拷贝至eclipse安装目录下的plugins中

2.      重新启动eclipse

3.      在Windows-preference中有Hadoop-MapReduce的配置路径,配置其中的hadoop安装目录,点击ok

 

4.      配置MapReduce,选择map/reduce视图,选择下方的MapReduce这个栏目,选中大象,右击,编辑,其中DFSMaster配置对应于hadoop配置文件的core-site.xml,MapReduct Master配置对应于map-red-core.xml中配置的端口信息,下方的User name用于免账号ssh登录时候的用户名。

5.      点击确定之后,可以在eclipse的左侧导航看到文件系统中的目录和文件。

 

注意:

1.      如果不能看到文件系统中的文件,尝试以下步骤,重新格式化文件系统:

stop-all.sh,hadoop namenode –format,start-all.sh

(伪分布式环境,每次重新启动系统的时候需要重新格式化文件系统,否则会出现链接失败的情况,Call to localhost/127.0.0.1:8021 failed on connection exception:java net ConnectException)

 

 

Eclipse运行hadoop程序

需要注意MapReduct程序都是对文件系统中的文件进行操作,所以一般在运行的时候需要将文件拷贝至hdfs,并且指定运行参数(比如输入和输出目录)。

1.      新建Project – MapReduct Project

2.      创建包和类

3.      将hadoop安装目录中的wordcount程序内容拷贝过来(安装目录/src/examples/中)

4.      右击要运行的类,Run—Run Configuration,配置输入和输出目录

5.      指定输入目录和输出目录,下图所示。

6.      其中其中的hdfs://localhost是在core-site.xml配置文件的里定义的fs.default.name的值,下图表示输入目录为in2,输入目录为out

 

运行结果:


hadoop-mapreduce-client-core是Hadoop分布式计算框架中的核心模块之一。它主要包含了Hadoop MapReduce的核心功能和API接口,是实现MapReduce编程模型的必备组件。 Hadoop MapReduce是一种用于大规模数据处理的编程模型,其核心思想是将大规模数据集分解成多个较小的数据块,分别在集群中的不同机器上进行处理,最后将结果整合。hadoop-mapreduce-client-core模块提供了与MapReduce相关的类和方法,方便开发者实现自定义的Map和Reduce任务。 具体来说,hadoop-mapreduce-client-core模块包含了以下重要组件和功能: 1. Job:Job表示一个MapReduce任务的定义和描述,包括输入路径、输出路径、Mapper和Reducer等。 2. Mapper:Mapper是MapReduce任务中的映射函数,它负责将输入数据转换成<key, value>键值对的形式。 3. Reducer:Reducer是MapReduce任务中的归约函数,它按照相同的key将所有Mapper输出的value进行聚合处理。 4. InputFormat:InputFormat负责将输入数据切分成多个InputSplit,每个InputSplit由一个Mapper负责处理。 5. OutputFormat:OutputFormat负责将Reducer的输出结果写入指定的输出路径中。 使用hadoop-mapreduce-client-core模块,开发者可以基于Hadoop分布式计算框架快速开发并行处理大规模数据的应用程序。通过编写自定义的Mapper和Reducer,可以实现各种类型的分布式计算,如数据清洗、聚合分析、机器学习等。 总之,hadoop-mapreduce-client-core是Hadoop分布式计算框架中的核心模块,提供了实现MapReduce编程模型所需的基本功能和API接口。使用该模块,开发者可以利用Hadoop的分布式计算能力,高效地处理和分析大规模数据。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值