DEntry Cache
在文件系统(特别是HDFS)使用过程中,会产生大量的通过FullPath查询Inode的子请求,这类请求会转换成逐层目录的Posix语义Lookup(ParentInodeId, Name)操作。
- 例如:通过FullPath的GetAttr,path为/A/B/C/D,那么就需要转换成多次的Lookup数据库操作:
- Lookup(RootInodeId, a) = AInodeId
- Lookup(AInodeId, b) = BInodeId
- Lookup(BInodeId, c) = CInodeId
- Lookup(CInodeId, d) = DInodeId
上述转换由于串行查询数据库,会导致查询时延成倍增加。DEntry Cache就是使用缓存技术,将低查询数据库时延。
本文将介绍几种典型的DEntry Cache设计,并给出比较结果。
不同文件系统DEntry Cache设计
FS | 缓存位置 | 缓存内容 | 处理策略 | 淘汰策略 | 一致性 | 总结 | 分类 |
---|---|---|---|---|---|---|---|
HDFS | 单MDS全缓存 | (Pid, Name)->(InodeId) | 串行化遍历每一级目录。在内存中进行Lookup,有修改元数据操作时更新缓存 | 无 | 多客户端一致 | 全缓存DEntryCache | 全缓存 |
Linux VFS DCache | 客户端 | (Pid, Name)->(InodeId) | 串行化遍历每一集目录,优先在内存中进行Lookup,(1)若命中,继续进行;(2)若未命中,从MDS获取数据并缓存 | 1、优先淘汰已经删除文件/目录的DEntry,2、然后淘汰未使用的DEntry | 多客户端不一致 | 1、通过缓存,减少Lookup次数,2、有一定淘汰策略 | 减少Lookup次数,降低时延 |
DS-Cache | 客户端 | (Path)->(InodeId) | 在VFS DCache之上,构建DS-Cache。查询时,与缓存的Path进行前缀匹配,获取InodeId,(1)若命中部分层级目录,剩余的部分从VFS DCache获取,(2)若未命中,从VFS DCache获取 | 缓存Path数量固定,根据Path的AIISC码计算hash取余,每次操作,根据从VFS DCache获取的结果,更新缓存。 | 多客户端不一致 | 减少串行遍历次数 | 减少Lookup次数,将低时延 |
CubeFS | 客户端 | (Path)->(InodeId) | 根据Path获取Inode,(1)若命中,直接返回,(2)若未命中,从MDS查询 | 一定时间内DEntry Cache无新的Path插入,清空DEntry Cache | 多客户端不一致 | 减少串行遍历次数 | 减少Lookup次数,降低时延 |
JuiceFS | 客户端 | (Pid, Name)->(InodeId) | 串行化遍历每一集目录,(1)若命中,根据获取的Inode进行GetAttr,校验内存是否有效,无效直接返回错误,否则返回成功,(2)若未命中,从MDS获取,并插入缓存 | DEntry加入缓存后,一定时间内失效淘汰 | 多客户端不一致 | 减少串行遍历次数,通过超时失效策略减少不一致时间 | 减少Lookup次数,降低时延 |
IndexFS | 客户端 | (Pid, Name)->(InodeId) | 串行化遍历每一级目录,(1)若命中,直接返回,(2)若未命中,从MDS读取,并缓存 | 不同DEntry设置不同失效时间,(1)根据目录层级设置失效时间,(2)根据读写IOPS访问频率设置失效时间 | 多客户端不一致 | 减少串行遍历次数,通过超时失效策略减少不一致时间 | 减少Lookup次数,降低时延 |
HopsFS | 多个MDS | (Pid, Name)->(InodeId) | 串行化在内存中遍历每一级目录,(1)若命中,并行查询数据库,若数据库查询结果与缓存相符,直接返回,若与缓存不符,退化为从MDS获取。(2)若未命中,从MDS获取。 | 从数据库获取后更新缓存 | 多客户端一致 | 并行Lookup,减少整体时延 | 并发查询数据库,降低时延 |
总结
总结起来,DEntryCache的设计包含如下考虑:
- 是否需要多客户端强一致,如果需要强一致
- 选择HDFS全缓存,不能满足大量元数据的诉求。
- 选择HopsFS,Cache只作为辅助手段,将数据库的串行访问转换为并行访问,减少时延。
- 选择类似CephFS CAP召回的办法通知客户端更新缓存,逻辑复杂很难实现。
- 缓存(Pid, Name)->(InodeId)还是(Path)->(InodeId)
- 选择缓存(Pid, Name)->(InodeId),在某些情况下可能还是会大量访问数据库。
- 选择缓存(Path)->(InodeId),可以提高路径局部性,减少数据库访问,但会有大量重复的缓存。
- 淘汰策略
- 延时淘汰,可以尽量减少多客户端不一致的时间。
参考文献
- HDFS介绍:https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
- VFS DCache介绍:https://www.halolinux.us/kernel-reference/the-dentry-cache.html
- VFS DCache介绍:https://blog.csdn.net/whatday/article/details/100663436
- DS-Cache论文:DS-Cache: A Refined Directory Entry Lookup Cache with Prefix-Awareness for Mobile Devices
- CubeFS源码:https://github.com/cubefs/cubefs,cubefs/client/fs/dcache.go
- JuiceFS源码:https://github.com/juicedata/juicefs,juicefs/pkg/fs/fs.go doResolve函数
- IndexFS论文:IndexFS: Scaling File System Metadata Performance with Stateless Caching and Bulk Insertion
- HopsFS论文:HopsFS: Scaling Hierarchical File System Metadata Using NewSQL Databases