Orion: A Distributed File System for Non-Volatile Main Memory and RDMA-Capable Networks——泛读笔记

FAST 2019 Paper 分布式元数据论文阅读笔记整理

问题

高性能、字节可寻址的非易失性主存储器(NVMM)迫使系统设计者重新思考整个系统堆栈中的权衡,例如传统的分布式文件系统。当更快的NVMM取代基于块的存储时,存储性能的显著提高使网络、软件和数据放置开销成为一个关键的瓶颈。此外,NVMM是字节可寻址的,因此基于块的接口不再是约束,旧的分布式文件系统浪费了NVMM性能。

现有方法局限性

现有分布式文件系统性能不高的原因:

  • RDMA利用不足:一些现有的分布式存储系统使用RDMA作为数据访问的快速传输层[10,18,62,63,71],但没有将其深入集成到其设计中。其他系统[41,55]更广泛地适应RDMA,但为对象存储提供了自定义接口,这些接口与文件系统功能不兼容,如不受限制的目录和文件扩展、符号链接和文件属性。

  • 软件开销高:大多数分布式文件系统都使用了两层设计,将网络层和存储层划分为单独的模块。两层设计便于实施,设计者可以构建一个用户级守护进程,将现成的网络包和本地文件系统缝合成分布式文件系统。但会导致元数据重复、复制过多、不必要的事件处理,并在关键路径上设置用户空间保护障碍。

  • 局部性:传统的基于区块的设计通常区分客户端节点和集中式存储节点池[18,53]。池对块设备来说是有意义的,因为访问延迟是由存储而不是网络延迟决定的,并且存储节点池简化了系统管理。然而,NVMM的速度使存储池效率低下。

本文方法

本文提出了Orion,基于NVMM和RDMA的分布式文件系统。

  • 使用RDMA:使用RDMA来加速元数据和数据访问,使CPU不参与许多传输,从而降低了CPU负载并提高了处理传入请求的可扩展性。将RDMA与NVMM配对允许节点直接访问远程存储,而无需任何目标端软件开销。

  • 软件开销:将网络和存储功能合并到内核驻留层中,针对RDMA和NVMM进行优化,直接通过RDMA访问NVMM上的数据结构,用于处理数据、元数据和网络访问。

  • 局部性:因为本地NVMM的性能比RDMA快几倍,因此尽可能将持久数据迁移到客户端,并使用委托分配方案来有效管理可用空间。在客户端缓存文件系统数据结构,客户端可以在本地应用文件操作,并且只将更改通过网络发送到元数据服务器。将数据迁移到发生写入的位置,使用数据缓存优化重复访问,利用日志结构的设计降低维护缓存一致性的成本。

  • 一致性:使用日志结构设计以低成本维护文件系统的一致性。允许并行读取,但在集群中序列化文件系统数据结构的更新。依靠原子更新的inode日志来保证元数据和数据的一致性,并使用客户端仲裁的协调方案来解决冲突。

评估表明,单个客户端时Orion的性能与本地NVMM文件系统相当,8个客户端时性能比本地文件系统高4.1-7.9倍,并优于现有的分布式文件系统。

实验

实验环境:10个节点的集群,使用DRAM模拟持久内存。每个节点都有两个四核Intel Xeon(Westmere EP)CPU,具有48 GB的DRAM,其中32 GB配置为模拟pmem设备。每个节点都有一个在Infiniband模式下运行的RDMA NIC(Mellanox ConnectX-2 40 Gbps HCA),并连接到Infiniband交换机(QLogic 12300)。

数据集:Microbenchmark,Filebench [64] (varmail, fileserver, webserver),MongoDB [4] (YCSB),

实验对比:延迟、吞吐量

实验参数:文件系统操作、数据集、客户端数量

总结

针对RDMA和NVMM下的分布式文件系统,现有方法对RDMA利用不足、软件开销高。本文提出Orion,基于NVMM和RDMA的分布式文件系统。(1)使用RDMA减少软件开销:将网络和存储功能合并到内核驻留层中,直接通过RDMA访问NVMM上的数据结构,用于处理数据、元数据和网络访问,无需目标端软件开销。(2)局部性:使用数据缓存优化重复访问,在客户端缓存文件系统数据结构,客户端可以在本地应用文件操作,只将更改通过网络发送到元数据服务器。(3)一致性:使用日志结构设计以低成本维护文件系统的一致性。允许并行读取,在集群中序列化文件系统数据结构的更新。依靠原子更新的inode日志来保证元数据和数据的一致性,并使用客户端仲裁的协调方案来解决冲突。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

妙BOOK言

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值