1.3.1 ALLUXIO 1.7.0 集群Master HA容错部署的案例与解读
作为一个Master/Slaves架构的分布式系统,都会存在单点故障。在Alluxio分布式系统中,Alluxio的容错通过多Master实现。同一时刻,有多个Master进程运行。其中一个被选举为Leader,作为所有Workers和 Clients的通信首选。其余Master进入备用状态,和Leader共享日志,以确保和Leader维护着同样的文件系统元数据并在 Leader失效时迅速接管Leader的工作。当前Leader失效时,自动从可用的备用Master中选举一个作为新的Leader,Alluxio继续正常运行。但在切换到备用 Master时,客户端会有短暂的延迟或瞬态错误。
搭建一个容错的Alluxio集群需要两方面的准备:
1) ZooKeeper:Alluxio使用Zookeeper实现Master的容错。Alluxio Master使
用Zookeeper选举Leader。Alluxio Clients使用 Zookeeper查询当前Leader的ID和地址。Alluxio