SoCC 2023 Paper 分布式元数据论文阅读笔记整理
问题
在单机上或通过共享磁盘存储元数据的文件系统面临可扩展性挑战,尤其是在需要管理数十亿个文件的环境中。使用无共享的分布式数据库系统(DDBMS)进行元数据存储,可以保证所有事务的原子性、隔离性、持久性,同时提升可扩展性。然而,对于低规模部署(元数据可以放在一台机器的内存中),基于DDBMS的系统的性能通常比将元数据存储在一台计算机上的内存的系统差一个数量级。这限制分布式数据库的方法,因为它们目前只适用于极端规模的文件系统。
本文方法
本文提出了FileScale,一个基于HDFS的文件系统,它用三层分布式体系结构取代了HDFS中的元数据管理,三层体系结构包括:路由层、分布式缓存层、DDBMS层,大多数请求都可以通过与DDBMS的异步、批处理交互来处理。
与以前的方法相比,FileScale在小规模上的性能与单机体系结构相当,同时随着文件系统元数据的增加,实现了线性可扩展性。
总结
针对文件系统元数据,如何保证可扩展性的同时保证性能。本文提出FileScale,基于HDFS的文件系统,用三层分布式体系结构取代了HDFS中的元数据管理,三层体系结构包括:路由层、分布式缓存层、分布式数据库系统(DDBMS)层,大多数请求都可以通过与DDBMS的异步、批处理交互来处理,并允许独立地弹性缩放体系结构中的每一层。