Rapid CDC
来自论文:RapidCDC: Leveraging Duplicate Locality to Accelerate Chunking in CDC-based Deduplication Systems
Github:https://github.com/moking/RapidCDC
简要介绍
基本思想
利用重复局部性加速CDC。重复局部性,即重复数据块可能在一块出现,即一个重复的块后面可能紧跟着一系列连续的重复块,序列越长,局部性越强
主要技术
RapidCDC利用局部性,消除在确定块边界时需要逐字节滚动窗口的成本。块的指纹与下一个块的大小一起记录在文件中,当检测到一个重复的块时,在没有逐字节滚动窗口的情况下,它被用作定位下一个块最有可能的边界的提示。
- 它的效率与重复数据删除比呈正相关。当将RapidCDC应用于具有高数据冗余的数据集时,其速度可以与固定大小的分块方法一样快
- 另一个特点是它的高效率不依赖于高重复局域强度
动机
理论分析
发生更新操作时,更新的范围有限,未更新的数据或重复的数据很可能连续地分布在文件中。即,每次更新不可能均匀分析的在文件中。
实验分析
-
分析一