文件系统DEntry Cache设计调研

DEntry Cache

在文件系统(特别是HDFS)使用过程中,会产生大量的通过FullPath查询Inode的子请求,这类请求会转换成逐层目录的Posix语义Lookup(ParentInodeId, Name)操作。

  • 例如:通过FullPath的GetAttr,path为/A/B/C/D,那么就需要转换成多次的Lookup数据库操作:
    • Lookup(RootInodeId, a) = AInodeId
    • Lookup(AInodeId, b) = BInodeId
    • Lookup(BInodeId, c) = CInodeId
    • Lookup(CInodeId, d) = DInodeId

上述转换由于串行查询数据库,会导致查询时延成倍增加。DEntry Cache就是使用缓存技术,将低查询数据库时延。

本文将介绍几种典型的DEntry Cache设计,并给出比较结果。

不同文件系统DEntry Cache设计

FS缓存位置缓存内容处理策略淘汰策略一致性总结分类
HDFS单MDS全缓存(Pid, Name)->(InodeId)串行化遍历每一级目录。在内存中进行Lookup,有修改元数据操作时更新缓存多客户端一致全缓存DEntryCache全缓存
Linux VFS DCache客户端(Pid, Name)->(InodeId)串行化遍历每一集目录,优先在内存中进行Lookup,(1)若命中,继续进行;(2)若未命中,从MDS获取数据并缓存1、优先淘汰已经删除文件/目录的DEntry,2、然后淘汰未使用的DEntry多客户端不一致1、通过缓存,减少Lookup次数,2、有一定淘汰策略减少Lookup次数,降低时延
DS-Cache客户端(Path)->(InodeId)在VFS DCache之上,构建DS-Cache。查询时,与缓存的Path进行前缀匹配,获取InodeId,(1)若命中部分层级目录,剩余的部分从VFS DCache获取,(2)若未命中,从VFS DCache获取缓存Path数量固定,根据Path的AIISC码计算hash取余,每次操作,根据从VFS DCache获取的结果,更新缓存。多客户端不一致减少串行遍历次数减少Lookup次数,将低时延
CubeFS客户端(Path)->(InodeId)根据Path获取Inode,(1)若命中,直接返回,(2)若未命中,从MDS查询一定时间内DEntry Cache无新的Path插入,清空DEntry Cache多客户端不一致减少串行遍历次数减少Lookup次数,降低时延
JuiceFS客户端(Pid, Name)->(InodeId)串行化遍历每一集目录,(1)若命中,根据获取的Inode进行GetAttr,校验内存是否有效,无效直接返回错误,否则返回成功,(2)若未命中,从MDS获取,并插入缓存DEntry加入缓存后,一定时间内失效淘汰多客户端不一致减少串行遍历次数,通过超时失效策略减少不一致时间减少Lookup次数,降低时延
IndexFS客户端(Pid, Name)->(InodeId)串行化遍历每一级目录,(1)若命中,直接返回,(2)若未命中,从MDS读取,并缓存不同DEntry设置不同失效时间,(1)根据目录层级设置失效时间,(2)根据读写IOPS访问频率设置失效时间多客户端不一致减少串行遍历次数,通过超时失效策略减少不一致时间减少Lookup次数,降低时延
HopsFS多个MDS(Pid, Name)->(InodeId)串行化在内存中遍历每一级目录,(1)若命中,并行查询数据库,若数据库查询结果与缓存相符,直接返回,若与缓存不符,退化为从MDS获取。(2)若未命中,从MDS获取。从数据库获取后更新缓存多客户端一致并行Lookup,减少整体时延并发查询数据库,降低时延

总结

总结起来,DEntryCache的设计包含如下考虑:

  • 是否需要多客户端强一致,如果需要强一致
    • 选择HDFS全缓存,不能满足大量元数据的诉求。
    • 选择HopsFS,Cache只作为辅助手段,将数据库的串行访问转换为并行访问,减少时延。
    • 选择类似CephFS CAP召回的办法通知客户端更新缓存,逻辑复杂很难实现。
  • 缓存(Pid, Name)->(InodeId)还是(Path)->(InodeId)
    • 选择缓存(Pid, Name)->(InodeId),在某些情况下可能还是会大量访问数据库。
    • 选择缓存(Path)->(InodeId),可以提高路径局部性,减少数据库访问,但会有大量重复的缓存。
  • 淘汰策略
    • 延时淘汰,可以尽量减少多客户端不一致的时间。

参考文献

  • HDFS介绍:https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
  • VFS DCache介绍:https://www.halolinux.us/kernel-reference/the-dentry-cache.html
  • VFS DCache介绍:https://blog.csdn.net/whatday/article/details/100663436
  • DS-Cache论文:DS-Cache: A Refined Directory Entry Lookup Cache with Prefix-Awareness for Mobile Devices
  • CubeFS源码:https://github.com/cubefs/cubefs,cubefs/client/fs/dcache.go
  • JuiceFS源码:https://github.com/juicedata/juicefs,juicefs/pkg/fs/fs.go doResolve函数
  • IndexFS论文:IndexFS: Scaling File System Metadata Performance with Stateless Caching and Bulk Insertion
  • HopsFS论文:HopsFS: Scaling Hierarchical File System Metadata Using NewSQL Databases
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Linux虚拟文件系统(Virtual File System,VFS)是Linux操作系统中的一个重要组成部分,它提供了一个统一的接口,使得用户和应用程序可以通过相同的方式访问不同类型的文件系统。 VFS的设计目标是将不同类型的文件系统抽象为一个统一的接口,使得用户和应用程序无需关心底层文件系统的具体实现细节。通过VFS,用户可以使用相同的系统调用(如open、read、write等)来访问不同类型的文件系统,包括本地文件系统(如ext4、XFS等)、网络文件系统(如NFS、CIFS等)以及虚拟文件系统(如procfs、sysfs等)。 VFS的核心数据结构是inode和dentry。inode(index node)表示文件或目录在文件系统中的索引节点,它包含了文件或目录的元数据信息,如权限、大小、时间戳等。dentry(directory entry)表示目录中的一个条目,它包含了文件或目录的名称和对应的inode指针。 VFS通过层次化的文件系统结构来管理不同类型的文件系统。在最顶层是一个虚拟文件系统层(VFS层),它提供了与用户和应用程序交互的接口。下面是一些常见的虚拟文件系统: 1. procfs:提供了对内核运行时信息的访问,以文件的形式呈现。用户可以通过读取procfs中的文件获取系统信息,如进程信息、内存信息等。 2. sysfs:提供了对设备和驱动程序的访问,以文件的形式呈现。用户可以通过sysfs获取和配置系统中的设备信息。 3. tmpfs:是一种基于内存的文件系统,它将文件存储在内存中而不是硬盘上,读写速度较快,适用于临时文件存储。 4. nfs:是一种网络文件系统,允许用户通过网络访问远程主机上的文件。 5. ext4、XFS等:是常见的本地文件系统,用于在硬盘上存储文件

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值