功能简介
Alluxio作为一个大数据和机器学习的一个访问接入层,结余分布式存储(Amazon S3,, Apache HDFS, or OpenStack Swift(对象存储))和计算框架( Spark, Presto, or Hadoop MapReduce)之间,作为内存存储介质,本身不提供持久化存储,但是使用Alluxio能给用户带来很多好的用户体验;
- 数据共享和本地化;不受限于具体的计算框架,已本地和集群方式提供内存级访问速度;作为持久化存储的前端加速层,有效加速底层存储的访问(如HDFS的文件层IO瓶颈);如果以融合方式和计算框架部署,节省网络传输损耗,本地概率读取更大程度的提升能效;
- 作为应用系统和后端存储的桥梁,Alluxio扩展了后端存储的workloads能力;最为重要的对后端存储的接入进行了抽象和标准化接入,后端支持更多的应用和计算框架的接入,使得异构后端存储的融合成为可能,成为了屏蔽后端异构存储接入的标准化门面;
部署架构
图中可以看出,主要组件为masters, workers, and clients,典型的HA部署形态使用ZK做选主保护元数据节点master的高可用:主节点master, 备份masters, a job master, 备份job masters, workers, 以及job workers;
客户端接入主要为Spark / MapReduce jobs, the Alluxio CLI命令行, 或者Alluxio FUSE 作为可编程方式接入;
作为一个内存文件系统,可能会关系:
- 内存文件系统和后端存储一致性/时效性
- 是否提供了内存级的多副本管理
- Work重建和故障迁移
- 作为HPC,是否在OS内核级、高性能传输总线/链路有扩展需求
Ongoing...