FAST 2024 Paper 分布式元数据论文整理
问题
随着SSD的使用,其性能稳步下降。如图1所示,SSD的性能随着SSD的磨损的下降率为4.2%,吞吐量下降不太可能是由于垃圾收集造成的,因为(1)这是几个月来每天测量的,(2)在测量过程中只发出读取。最终,在写入9 PB的数据后,随机读取和顺序读取的吞吐量分别降低了37%和38%。
SSD退化也会导致高达3.65×[40]的延迟峰值,并且由于闪存的可靠性会随着时间的推移而持续恶化[25,40,66],对整体系统性能的影响会持续增加。
两个观察:
-
当闪存最终出现故障时,它会以部分故障的方式出现故障。SSD的故障单元是一个单独的闪存块[3,44,50],而SSD内部磨损均衡算法是模拟硬盘驱动器类故障停止行为的人工产物[25,31]。
-
SSD只能进行性能和可靠性下降的平衡,因为存储设备的容量从安装到退役一直保持固定。SSD的内部数据重新读取[4,5,42,53]或预防性重新写入[6,18]都是导致故障缓慢症状的选择[30,31]。
本文方法
为了避免SSD性能下降影响到上层文件系统的性能,本文提出了基于闪存的固态驱动器(SSD)的容量可变存储系统(CVSS)。通过允许存储容量随着时间的推移而适度减少,从而防止出现慢故障症状,从而在SSD的整个使用寿命内保持高性能。包括三个关键组件:
-
CV-SSD,通过避免使用老化和性能较差的块,来保持其性能和可靠性,同时减少写放大。因为无需维护固定容量,简化了闪存管理固件,避免了故障缓慢症状,并延长了其使用寿命。
-
CV-FS,用于弹性逻辑分区的日志结构文件系统。基于存储设备的老化状态动态调整逻辑分区大小,以在线、细粒度的方式减少容量,并仔细管理用户数据以避免数据丢失。
-
CV管理器,基于存储系统的状态来编排系统组件的用户级程序。为主机提供必要的接口以应对容量差异,用户可以通过命令设置设备的性能和可靠性要求,然后CV管理器自适应地协调CV-FS和底层CV-SSD。
开源代码:https://github.com/ZiyangJiao/FAST24-CVSS-FEMU
实验展示了CVSS在合成和实际工作负载下的有效性,并展示了与固定容量存储系统相比,在延迟、吞吐量和寿命方面的显著改进。在实际工作负载下,CVSS可分别降低延迟、提高吞吐量和延长使用寿命8–53%、49–316%和268–327%。
实验
实验环境:
数据集:FIO、Filebench[60]、YCSB、Twitter[64]
实验对比:吞吐量、延迟、IOPS、
实验参数:容量、
总结
针对SSD上的文件系统,随着SSD老化如何保证文件系统性能稳定。本文提出了基于SSD的容量可变存储系统(CVSS),允许存储容量随着时间的推移而适度减少,在SSD的整个使用寿命内保持高性能。包括三个关键组件:(1)CV-SSD,避免使用老化和性能较差的块,来保持其性能和可靠性,同时减少写放大。(2)CV-FS,用于弹性逻辑分区的日志结构文件系统。基于存储设备的老化状态动态调整逻辑分区大小,以在线、细粒度的方式减少容量,并仔细管理用户数据以避免数据丢失。(3)CV管理器,基于存储系统的状态来编排系统组件的用户级程序。为主机提供必要的接口以应对容量差异,自适应地协调CV-FS和底层CV-SSD。