Hadoop伪分布式运行及YARN的初始化

最新推荐文章于 2024-07-11 22:23:39 发布

jaky0306

最新推荐文章于 2024-07-11 22:23:39 发布

阅读量1.3k

点赞数 1

分类专栏： Hadoop 文章标签： Hadoop伪分布式运行 YARN的初始化 Hadoop入门配置 Hadoop基本环境搭建 hadoop

本文链接：https://blog.csdn.net/jaky0306/article/details/72718288

版权

2 篇文章 0 订阅

订阅专栏

  上篇文章Hadoop基本环境搭建 
 http://blog.csdn.net/jaky0306/article/details/72676904 
  的末尾，我们配置了Hadoop的伪分布式模式 

 
 本次我们来运行下伪分布式模式的例子。 

 
 伪分布式模式读取的是HDFS上的数据。其实它跟单机模式的操作很相似的，只不过，单机模式操作的是本地文件，伪分布模式操作的是HDFS上的数据 

 
 Hadoop 伪分布式例子运行 

 
 首先，我们在HDFS中创建一个用户目录，目前我们是hadoop用户，因此 

 
 $ ./bin/hdfs dfs -mkdir -p /user/hadoop 

 
 接着我们把 ./etc/hadoop/ 路径下的所有xml文件作为输入文件，上传到HDFS中，我们在HDFS中创建一个input文件夹 

 
 $ ./bin/hdfs dfs -mkdir input 

 
 然后复制文件 
 （复制文件用的是 -put 命令，下载是 -get） 

 
 $ ./bin/hdfs dfs -put ./etc/hadoop/*.xml input 

 
 查看文件列表 

 
 $ ./bin/hdfs dfs -ls input 

 
 继续 

  我们像单机模式一样，在伪分布式模式中计算一下input文件夹所有文件的内容中，符合正则表达式ab[a-z.]+的单词多出现的次数，最后把结果保存到output文件夹中 

  $ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'ab[a-z.]+' 

  查看结果 

  $ ./bin/hdfs dfs -cat output/* 

 
 PS: 运行过程中，如果发现报 文件夹已存在 的错误，就把目标文件夹删了再重新运行命令 

 
 这就是在伪分布式模式下运行Hadoop例子，是不是很简单。最大的差别在于，HDFS 的操作，需要一些特定的指令，如 -put -get -ls 等，这些需要记一下 

 
 继续 

 
 YARN的初始化 

  旧版本教程上面，是不是有什么JobTracker和TaskTracker，为什么之前的配置没有看到呢？ 

  原因就是新版的Hadoop使用了新的MapReduce框架： MapReduce V2，也就是YARN. 让YRAN来负责资源管理和任务调度 

  首先，我们需要修改配置文件mapred-site.xml。新版本/etc/hadoop/ 路径下是mapred-site.xml.template 因此，我们需要重命名一下 

  $ mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml 

  然后进行配置 

  <configuration> 

  <property> 

  <name>mapreduce.framework.name</name> 

  <value>yarn</value> 

  </property> 

  </configuration> 

  $ sudo gedit ./etc/hadoop/mapred-site.xml 

  接着，我们修改yarn-site.xml 

  <configuration> 

  <property> 

  <name>yarn.nodemanager.aux-services</name> 

  <value>mapreduce_shuffle</value> 

  </property> 

  </configuration> 

  $ sudo gedit ./etc/hadoop/yarn-site.xml 

  配置完毕，准备启动YARN， 
 启动之前，我们需要先吧hadoop启动 

 
 $ ./sbin/start-yarn.sh 

 
 访问localhost:8088 

 
 大概的配置就是这样了，是不是很简单 

 
 完毕 

关注

专栏目录