大数据教程（11.1）HA机制以及设计思路的分析

最新推荐文章于 2023-03-27 14:58:42 发布

D_SJ

最新推荐文章于 2023-03-27 14:58:42 发布

阅读量203

点赞数

文章标签：大数据 python 数据库

原文链接：https://my.oschina.net/u/2371923/blog/2995796

版权

2019独角兽企业重金招聘Python工程师标准>>>

上一章介绍了一些hadoop的实战分析案例，本章将介绍hadoop的高可用以及初步认识hive。

一、Hadoop的HA机制
前言：正式引入HA机制是从hadoop2.0开始，之前的版本中没有HA机制；HA的运作机制：
（1）hadoop-HA集群运作机制介绍：所谓HA，即高可用（7*24小时不中断服务），实现高可用最关键的是消除单点故障，hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA

         （2）HDFS的HA机制详解：通过双namenode消除单点故障，双namenode协调工作的要点：
              A、元数据管理方式需要改变：内存中各自保存一份元数据，Edits日志只能有一份，只有Active状态的namenode节点可以做写操作，两个namenode都可以读取edits，共享的edits放在一个共享存储中管理（qjournal和NFS两个主流实现）
                  B、需要一个状态管理功能模块：实现了一个zkfailover，常驻在每一个namenode所在的节点，每一个zkfailover负责监控自己所在namenode节点，利用zk进行状态标识，当需要进行状态切换时，由zkfailover来负责切换，切换时需要防止brain split（脑裂--在很多高可用系统中都或多或少存在这一的风险，如：基于keeperalived的mysql高可用主备架构）现象的发生。

二、HA架构图

a.hadoop的高可用机制

b.hadoop的federation机制（name node容量的水平扩展）

三、最后总结

hadoop的联邦机制其实就相当于是将不同的服务器按照不同的磁盘进行分区，不同的分区各自负责不存储不同的路径下的服务；当是对外提供统一的访问方式，可以让其在客户端看起来是同一台服务器一样。在联邦机制下，所有name node节点的clusterID必须配置成一样，且联邦机制下的data node是对全部name node共享的，在data node上blockPool目录可能有多个，分别对应不同的name node（HA）集群存的数据。HA集群中由于standby的存在，它可以用来做checkpoint，所以不存在second name node这个节点。

最后寄语，以上是博主本次文章的全部内容，如果大家觉得博主的文章还不错，请点赞；如果您对博主其它服务器大数据技术或者博主本人感兴趣，请关注博主博客，并且欢迎随时跟博主沟通交流。

转载于:https://my.oschina.net/u/2371923/blog/2995796