MapReduce样例程序运行测试

最新推荐文章于 2024-05-15 22:07:33 发布

super-yong

最新推荐文章于 2024-05-15 22:07:33 发布

阅读量424

点赞数 1

分类专栏：大数据专栏预写大数据开发学习

本文链接：https://blog.csdn.net/superme_yong/article/details/86634341

版权

本文介绍了MapReduce程序的两种运行方式：本地模式和服务器环境下的伪分布式及分布式环境。详细阐述了配置Hadoop环境变量、添加winutils.exe工具、提交jar包到YARN运行的步骤，并通过wordcount样例程序进行实战演示。最后，解析了运行结果文件的含义，帮助理解MapReduce的输出结构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MapReduce程序需要运行，可以选择运行方式：

第一种：

本地模式：

需要下载hadoop环境包，步骤如下：

pc环境：
1.将Hadoop安装本地解压
2.配置Hadoop的环境变量
添加 %HADOOP_HOME%
修改 %PATH% 添加 %HADOOP_HOME%/bin;%HADOOP_HOME%/sbin
3.在解压的Hadoop的bin目录下添加 winutils.exe 工具

第二种：

服务器环境下运行：

在服务器环境中有两种环境：

一种是:

伪分布式环境

另一种是:

分布式环境

接下来我们运行hadoop自带的MapReduce程序：

前面我们配置过MapReduce程序运行在yarn上，所以只需要将系统给的jar包提交到yarn上运行就可以了；

我们可以看下提交到yarn上的命令参数详解：

[super-yong@bigdata-01 hadoop-2.7.3]$ bin/yarn
Usage: yarn [--config confdir] [COMMAND | CLASSNAME]
  CLASSNAME                             run the class named CLASSNAME
 or
  where COMMAND is one of:
  resourcemanager -format-state-store   deletes the RMStateStore
  resourcemanager                       run the ResourceManager
  nodemanager                           run a nodemanager on each slave
  timelineserver                        run the timeline server
  rmadmin                               admin tools
  sharedcachemanager                    run the SharedCacheManager daemon
  scmadmin                              SharedCacheManager admin tools
  version                               print the version
  jar <jar>                             run a jar file
  application                           prints application(s)
                                        report/kill application
  applicationattempt                    prints applicationattempt(s)
                                        report
  container

最低0.47元/天解锁文章