TPFS: A High-Performance Tiered File System for Persistent Memories and Disks——论文泛读

TOS 2023 Paper 分布式元数据论文阅读笔记整理

问题

与SSD和HDD相比,新兴的快速字节可寻址持久存储器(PM)可以大幅提高存储性能,提供了更高的吞吐量和更低的延迟,但也增加了成本。分层系统是利用多种异构设备的方法,如DRAM、PM、SSD、HDD,将数据放置在与数据的性能要求和应用程序未来的访问模式匹配的存储设备中。但决定数据在多种异构设备中的位置还存在挑战。

挑战

  • 如何充分利用PM和DRAM的高带宽和低延迟。PM提供了一种比磁盘更有效的数据持久化方法,文件系统可以写入到PM来保持同步,这不仅绕过了页缓存,还消除了磁盘访问的高延迟。但DRAM页缓存比PM吞吐量更高和延迟更低,也可以将写入异步刷新到磁盘,并保证在fsync之后是持久的。

  • 如何协调PM的随机访问与HDD和SSD的顺序访问。与HDD相比,PM的顺序性能和随机性能之间的差距要小得多[23,45],使得它能够吸收随机写入。同时,文件系统应该利用PM来最大限度地提高向磁盘写入和从磁盘读取的顺序性。

本文方法

本文提出了TPFS,结合了PM和慢速磁盘的分层文件系统,具有接近PM性能和大容量。

  • 根据同步性、写入大小和读取频率,将传入I/O引导到PM、DRAM或磁盘。包括三个预测器,分析文件I/O序列,预测:传入的写入是否既大又稳定;对文件的更新是否是同步的;文件是否频繁读取。根据预测将I/O请求引导到最合适的层:对同步更新的I/O传入PM层,减少同步开销;小的随机写入传入PM层,以避免对磁盘的随机写入;异步更新和大型顺序写入传入磁盘;经常读取的文件迁移到磁盘,并缓存在DRAM中。

  • 在线评测应用程序的访问流,估计文件数据的温度,选择要迁移的冷写和热读的文件数据块,将相邻数据块合并迁移到磁盘。根据应用程序访问模式调整迁移策略。

实验结果表明,与单独在SSD上运行的EXT4和XFS相比,在少量PM和大型固态驱动器(SSD)的情况下,TPFS的吞吐量分别提高了7.3倍和7.9倍。随着PM数量的增长,TPFS的性能会提高,直到它与仅PM文件系统的性能相匹配。

实验

实验环境:双插槽Intel Xeon服务器,配备了两个Intel Xeon Gold 6240 CPU(运行频率为2.6 GHz,有36个物理核)和384 GB DDR4 DRAM,有12个Optane DC永久内存100 DIMM(每个模块128 GB,总计1.5 TB)。

顺序读取和写入带宽分别为43.8 GB/s和12.2 GB/s,随机写入吞吐量在大约10个线程时饱和。

数据集:Microbenchmark:FIO,Filebench:Fileserver、Webserver、Varmail,LevelDB,RocksDB

实验对比:吞吐量,延迟

实验参数:不同硬件条件,访问倾斜度,I/O总量,线程数量,消融实验

总结

针对跨DRAM、PM、SSD的分层文件系统,如何在多种异构设备中迁移数据实现更高性能。本文提出了TPFS,跨PM和磁盘的分层文件系统。包括两个优化点:(1)利用三个预测器,分析文件I/O序列,预测:同步性、写入大小和读取频率。根据预测将I/O请求引导到最合适的层:同步更新的I/O传入PM层;小随机写入传入PM层;异步更新和大型顺序写入传入磁盘;经常读取的文件迁移到磁盘,并缓存在DRAM中。(2)在线评测应用程序的访问流,预测文件数据块的温度,识别冷写和热读的数据块,将相邻数据块合并迁移到磁盘。

  • 12
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

妙BOOK言

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值