HDFS Federation(HDFS 联邦)（Hadoop2.3）

最新推荐文章于 2024-06-26 11:31:51 发布

搜索与推荐Wiki

最新推荐文章于 2024-06-26 11:31:51 发布

阅读量5.2k

点赞数

分类专栏： # Hadoop基础到进阶文章标签： hadoop hdfs 联邦 Thinkgamer

Hadoop基础到进阶专栏收录该内容

28 篇文章 5 订阅

订阅专栏

最早接触Federation这个词还是第一家公司用的DB2联邦数据库。

第一代Hadoop HDFS：

结构上由一个namenode和众多datanode组成。

功能上划分为namespace和block storage service 两部分。

所谓的HDFS Federation就是有多个namenode（或者说namespace）。

如图：

这里有block pool的概念，每一个namespace都有一个pool，datanodes会存储集群中所有的pool，block pool之间的管理是独立的，一个namespace生成一个block id时不需要跟其它namespace协调，一个namenode的失败也不会影响到datanode对其它namenodes的服务。

一个namespace和它的blockpool作为一个管理单元，删除后，对应于datanodes中的pool也会被删除。集群升级时，这个管理单元也独立升级。

这里引入clusterID来标示集群所有节点。当一个namenode format之后，这个id生成，集群中其它namenode的format也用这个id。

多namenode的好处：

1、namespace可扩展性。原来只有hdfs存储可以水平扩展，现在namenode也可以做到了，减轻单namenode的内存和服务压力。

2、性能方面。多个namenode可以提高读写时的吞吐量。

3、隔离性。隔离不同类型的程序，一定程度上控制资源的分配。

联邦的配置：

联邦的配置是向后兼容的，允许在不改变任何配置的情况下让当前运行的单节点环境转换成联邦环境。新的配置方案确保了在集群环境中的所有节点的配置文件都是相同的。

这里引入了NameServiceID概念，作为namenodes们的后缀。

第一步：配置属性dfs.nameservices，用于datanodes们识别namenodes。

第二步：为每个namenode加入这个后缀。

例子：

<configuration>
  <property>
    <name>dfs.nameservices</name>
    <value>ns1,ns2</value>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.ns1</name>
    <value>nn-host1:rpc-port</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.ns1</name>
    <value>nn-host1:http-port</value>
  </property>
  <property>
    <name>dfs.namenode.secondaryhttp-address.ns1</name>
    <value>snn-host1:http-port</value>
  </property>
  <property>
    <name>dfs.namenode.rpc-address.ns2</name>
    <value>nn-host2:rpc-port</value>
  </property>
  <property>
    <name>dfs.namenode.http-address.ns2</name>
    <value>nn-host2:http-port</value>
  </property>
  <property>
    <name>dfs.namenode.secondaryhttp-address.ns2</name>
    <value>snn-host2:http-port</value>
  </property>

  .... Other common configuration ...
</configuration>

管理集群：

启动和停止用start-dfs.sh和stop-dfs.sh

跟第一代hadoop不同的是：这里允许集群中任何一台有效节点运行这两个命令，根据配置启动namenode和datanode，而第一代hadoop则是以运行启动脚本的节点为单一namenode。

均衡器:

由于多namenode了，均衡器也做了改变，运行命令：

"$HADOOP_PREFIX"/bin/hadoop-daemon.sh --config $HADOOP_CONF_DIR --script "$bin"/hdfs start balancer [-policy <policy>]

策略可以是node，之前也有的，增加了block pool，既在datanode级别又在block pool级别均衡。

下线节点：

跟之前版本的类似，把需要下线的节点添加到每台namenode的exclude文件中。

第一步:

"$HADOOP_PREFIX"/bin/distributed-exclude.sh <exclude_file>

第二步：

"$HADOOP_PREFIX"/bin/refresh-namenodes.sh

集群控制台：

http://<any_nn_host:port>/dfsclusterhealth.jsp

搜索与推荐Wiki

扫一扫关注微信公众号！号主专注于搜索和推荐系统，尝试使用算法去更好的服务于用户，包括但不局限于机器学习，深度学习，强化学习，自然语言理解，知识图谱，还不定时分享技术，资料，思考等文章！

【技术服务】，详情点击查看：https://mp.weixin.qq.com/s/PtX9ukKRBmazAWARprGIAg

外包服务

搜索与推荐Wiki

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HDFS Federation(HDFS 联邦)（Hadoop2.3）

最早接触Federation这个词还是第一家公司用的DB2联邦数据库。第一代HadoopHDFS：结构上由一个namenode和众多datanode组成。功能上划分为namespace和block storage service 两部分。所谓的HDFS Federation就是有多个namenode（或者说namespace）。如图：这里有blo...
复制链接

扫一扫

专栏目录