Hadoop伪分布式运行及YARN的初始化

上篇文章Hadoop基本环境搭建 http://blog.csdn.net/jaky0306/article/details/72676904 的末尾,我们配置了Hadoop的伪分布式模式
本次我们来运行下伪分布式模式的例子。

伪分布式模式读取的是HDFS上的数据。其实它跟单机模式的操作很相似的,只不过,单机模式操作的是本地文件,伪分布模式操作的是HDFS上的数据

Hadoop 伪分布式例子运行

首先,我们在HDFS中创建一个用户目录,目前我们是hadoop用户,因此
$ ./bin/hdfs dfs -mkdir -p /user/hadoop

接着我们把 ./etc/hadoop/ 路径下的所有xml文件作为输入文件,上传到HDFS中,我们在HDFS中创建一个input文件夹
$ ./bin/hdfs dfs -mkdir input
然后复制文件 (复制文件用的是 -put 命令,下载是 -get)
$ ./bin/hdfs dfs -put ./etc/hadoop/*.xml input
查看文件列表
$ ./bin/hdfs dfs -ls input


继续
我们像单机模式一样,在伪分布式模式中计算一下input文件夹所有文件的内容中,符合正则表达式ab[a-z.]+的单词多出现的次数,最后把结果保存到output文件夹中
$ ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar grep input output 'ab[a-z.]+'
查看结果
$ ./bin/hdfs dfs -cat output/*


PS: 运行过程中,如果发现报 文件夹已存在 的错误,就把目标文件夹删了再重新运行命令

这就是在伪分布式模式下运行Hadoop例子,是不是很简单。最大的差别在于,HDFS 的操作,需要一些特定的指令,如 -put -get -ls 等,这些需要记一下

继续
YARN的初始化
旧版本教程上面,是不是有什么JobTracker和TaskTracker,为什么之前的配置没有看到呢?
原因就是新版的Hadoop使用了新的MapReduce框架: MapReduce V2,也就是YARN. 让YRAN来负责资源管理和任务调度

首先,我们需要修改配置文件mapred-site.xml。新版本/etc/hadoop/ 路径下是mapred-site.xml.template 因此,我们需要重命名一下
$ mv ./etc/hadoop/mapred-site.xml.template ./etc/hadoop/mapred-site.xml
然后进行配置
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

$ sudo gedit ./etc/hadoop/mapred-site.xml


接着,我们修改yarn-site.xml
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>

$ sudo gedit ./etc/hadoop/yarn-site.xml


配置完毕,准备启动YARN, 启动之前,我们需要先吧hadoop启动
$ ./sbin/start-yarn.sh


访问localhost:8088


大概的配置就是这样了,是不是很简单
完毕
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值