hadoop2配置文件详细解释

最新推荐文章于 2023-09-22 17:38:10 发布

lichunan

最新推荐文章于 2023-09-22 17:38:10 发布

阅读量493

点赞数

分类专栏： hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lichunan/article/details/50554883

版权

本文详细介绍了Hadoop2的体系结构变化，包括HDFS的高可用性和NameNode的自动切换机制。重点解析了配置文件如hdfs-site.xml、mapred-site.xml、yarn-site.xml和slaves，特别是涉及JournalNode、ZooKeeper的角色以及HDFS Federation的概念，旨在确保数据一致性并提供故障切换能力。

摘要由CSDN通过智能技术生成

一、hadoop2体系结构

hadoop1的核心组成是两部分，即HDFS和MapReduce。在hadoop2中变为HDFS和Yarn。

新的HDFS的NameNode不再是只有一个了，可以有多个（目前只支持2个）。每一个都有相同的职能。

这两个NameNode的地位如何？答：一个是active状态的，一个是standby状态的。当集群运行时，只有active状态的NameNode是正常工作的，standby状态的NameNode是处于待命状态的，时刻同步active状态NameNode的数据。一旦active状态的NameNode不能工作，通过手工或者自动切换，standby状态的NameNode就可以转变为active状态的，就可以继续工作了。这就是高可靠。

当NameNode发生故障时，他们的数据如何保持一致？在这里，2个NameNode的数据其实是实时共享的。新HDFS采用了一种共享机制，JournalNode集群或者NFS进行共享。NFS是操作系统层面的，JournalNode是hadoop层面的，我们这里使用JournalNode集群进行数据共享。

如何实现NameNode的自动切换？这就需要使用ZooKeeper集群进行选择了。HDFS集群中的两个NameNode都在ZooKeeper中注册，当active状态的NameNode出故障时，ZooKeeper能检测到这种情况，它就会自动把standby状态的NameNode切换为active状态。

HDFS Federation（HDFS联盟）是怎么回事？答：联盟的出现是有原因的。我们知道NameNode是核心节点，维护着整个HDFS中的元数据信息，那么其容量是有限的，受制于服务器的内存空间。当NameNode服务器的内存装不下数据后，那么HDFS集群就装不下数据了，寿命也就到头了。因此其扩展性是受限的。HDFS联盟指的是有多个HDFS集群同时工作，那么其容量理论上就不受限了，夸张点说就是无限扩展。

文件hadoop-env.sh

就是修改这一行内容，修改后的结果如下

export JAVA_HOME=/usr/local/jdk

【这里的JAVA_HOME的值是jdk的安装路径。如果你那里不一样，请修改为自己的地址】

文件core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://cluster1</value>
</property>

【这里的值指的是默认的HDFS路径。当有多个HDFS集群同时工作时，用户如果不写集群名称，那么默认使用哪个哪？在这里指定！该值来自于hdfs-site.xml中的配置】
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>

【这里的路径默认是NameNode、DataNode、JournalNode等存放数据的公共目录。用户也可以自己单独指定这三类节点的目录。】
<property>
<name>ha.zookeeper.quorum</name>
<value>hadoop101:2181,hadoop102:2181,hadoop103:2181</value>
</property>

【这里是ZooKeeper集群的地址和端口。注意，数量一定是奇数，且不少于三个节点】
</configuration>

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

lichunan CSDN认证博客专家 CSDN认证企业博客

码龄15年

65: 原创

19万+: 周排名

216万+: 总排名

9万+: 访问

: 等级

1826: 积分

14: 粉丝

13: 获赞

9: 评论

23: 收藏

私信

关注

热门文章

分类专栏

设计模式 1篇
数据库
线程 3篇
Mysql 3篇
Netty 8篇
服务器 1篇
dubbo 4篇
zookeeper 4篇
翼支付门户架构讲解 29篇
oracle 2篇
jQuery
ftp 2篇
RabbitMQ 1篇
面试题 16篇
集群 1篇
性能调优 3篇
mongodb 14篇
nginx
redis 6篇
网络 3篇
加密算法 1篇
socket 1篇
读书笔记
深入理解Java虚拟机 4篇
简历模版
axis 1篇
postgresql 4篇
hadoop 3篇

最新评论

基于Redis Lua脚本实现的分布式锁
Lucky-肥仔: 学习啦
一切从ServerBootstrap开始
lblinmi: 大神你好，你的文章说的很不错，但是有一个地方我很疑惑。那就是为何要让worker线程处理耗时的内容移交给一个新的线程池。这样有什么意义么？假设worker线程池是1000大小，新线程池也是1000大小。那么我将worker线程池设为2000大小不就和2个线程池的处理能力一样了么？有什么区别么
一切从ServerBootstrap开始
lblinmi: 大神你好，你的文章说的很不错，但是有一个地方我很疑惑。那就是为何要让worker线程处理耗时的内容移交给一个新的线程池。这样有什么意义么？假设worker线程池是1000大小，新线程池也是1000大小。那么我将worker线程池设为2000大小不就和2个线程池的处理能力一样了么？有什么区别么
一切从ServerBootstrap开始
weixin_38481413: 不错
一切从ServerBootstrap开始
戏言跟班: 好文章，学习了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。