大数据教程(11.1)HA机制以及设计思路的分析

           上一章介绍了一些hadoop的实战分析案例,本章将介绍hadoop的高可用以及初步认识hive。

    一、Hadoop的HA机制
           前言:正式引入HA机制是从hadoop2.0开始,之前的版本中没有HA机制;HA的运作机制:
         (1)hadoop-HA集群运作机制介绍:所谓HA,即高可用(7*24小时不中断服务),实现高可用最关键的是消除单点故障,hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的HA

         (2)HDFS的HA机制详解:通过双namenode消除单点故障,双namenode协调工作的要点:
                  A、元数据管理方式需要改变:内存中各自保存一份元数据,Edits日志只能有一份,只有Active状态的namenode节点可以做写操作,两个namenode都可以读取edits,共享的edits放在一个共享存储中管理(qjournal和NFS两个主流实现)
                  B、需要一个状态管理功能模块:实现了一个zkfailover,常驻在每一个namenode所在的节点,每一个zkfailover负责监控自己所在namenode节点,利用zk进行状态标识,当需要进行状态切换时,由zkfailover来负责切换,切换时需要防止brain split(脑裂--在很多高可用系统中都或多或少存在这一的风险,如:基于keeperalived的mysql高可用主备架构)现象的发生。

    二、HA架构图

           a.hadoop的高可用机制

           b.hadoop的federation机制(name node容量的水平扩展)

    三、最后总结

           hadoop的联邦机制其实就相当于是将不同的服务器按照不同的磁盘进行分区,不同的分区各自负责不存储不同的路径下的服务;当是对外提供统一的访问方式,可以让其在客户端看起来是同一台服务器一样。在联邦机制下,所有name node节点的clusterID必须配置成一样,且联邦机制下的data node是对全部name node共享的,在data node上blockPool目录可能有多个,分别对应不同的name node(HA)集群存的数据。HA集群中由于standby的存在,它可以用来做checkpoint,所以不存在second name node这个节点。

           最后寄语,以上是博主本次文章的全部内容,如果大家觉得博主的文章还不错,请点赞;如果您对博主其它服务器大数据技术或者博主本人感兴趣,请关注博主博客,并且欢迎随时跟博主沟通交流。

转载于:https://my.oschina.net/u/2371923/blog/2995796

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值