第十三课记录 Hadoop HA 高可用性

最新推荐文章于 2024-04-12 04:46:53 发布

djCode

最新推荐文章于 2024-04-12 04:46:53 发布

阅读量246

点赞数

分类专栏： Hadoop

Hadoop 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

Hadoop HA （高可用性）

一、什么是HA？

1、HA: high avaibility 高可用性
  2、复习：（1） HDFS的体系结构
          （2） Yarn的体系结构
          （3） HBase的体系结构

      体系结构: 单点（主节点）故障-----> 实现: Fail Over 失败迁移

  3、解决方案:
      Hadoop 1.x：没有解决方案
      Hadoop 2.x: 有解决方案

  4、HA实现原理图
      1)HDFS中有两个文件:
          fsimange -- 元数据
          edits -- 操作日志
          *它们是由NameNode维护

2)以上两张图的配置，一共需要9台机器，简化后，至少需要4台.如下图

二、什么是Zookeeper?

  1、为什么要学习ZK? Hadoop本身不能实现HA
  2、ZooKeeper: 是一个数据库
      也是一个集群
          特点: 集群中自动同步数据
          角色：leader、follower、observer
          选择机制:如果leader死掉，所有follower会选举一个新的leader，observer不能参与选举.
  3、对于集群环境，Zookeeper是实现HA是非常重要

  4、启动Zookepeer
      #zkServer.sh start
  5、查看ZK状态
      #zkServer.sh status
  6、启动ZK客户端
      #zkCli.sh
  7、ZK SHELL, 如果在三台ZK上的基本任何一台执行以下操作, 其它两台电脑会自动同步数据
      SHELL> ls/ - 查看数据
      SHELL> create /mydate02 "helloworld" -- 创建节点
      SHELL> ls/ -- 再查看一下所有数据
      SHELL> get /mydate02 -- 查询刚创建的数据