基于内容可变长度分块Content Defined Chunking

最新推荐文章于 2025-03-17 13:43:29 发布

转载最新推荐文章于 2025-03-17 13:43:29 发布 · 3.8k 阅读

开发相关专栏收录该内容

9 篇文章

订阅专栏

本文介绍了内容定义分块(Content-Defined Chunking, CDC)技术，这是一种提高磁盘使用率和节省空间的方法。CDC属于可变分块技术，通过滑动窗口及哈希值匹配来确定数据块边界，即使文件部分更新，也能保持大部分块不变，从而提高重复数据的检测效率。

最近在研究开源网络云盘代码，发现他们在文件存储时用到一种文件切割复用的技术，能大大提高磁盘使用率，节省空间

在网上找了些这个技术（Content Defined Chunking）的一些说明。

基于内容可变长度分块

1，简介
重复数据块检测技术分为，固定分块检测技术(Fixed-Sized Partition, FSP)，可变分块检测技术(Variable-Sized Partition, VSP)，滑动块技术(Sliding Block)。
固定分块将数据流按固定的长度分块，实现很简单，但某一处数据的变化将导致之后的所有分块都发生变化，从而无法进行匹配。因此，固定分块技术在实际中应用较少。可变分块技术则可弥补固定分块技术的这一局限性，能更加灵活的找出重复数据。基于内容可变长度分块(Content-Defined Chunking, CDC)是可变分块(Variable-Sized Partition, VSP)的一种。

2，理论基础
CDC的理论基础是rabin fingerprint，请参照Michael O. Rabin的Fingerprinting by Random Polynomials.

3，具体实现
文件被分为长度可变的数据块,数据块的长度在一个规定的最小值和最大值之间。可变长度的数据块用一个滑动窗口来划分,当滑动窗口的 hash 值与一个基准值相匹配时就创建一个分块,这样数据块的尺寸就可达到一个期望的分布。Rabin’s fingerprint 预先定义两个整数 D 和 r(r<D) 一个大小为 w 的固定窗口在文件上滑动。假如在位置 k,固定窗口内数据的 hash 值为 f，如果f mod D = r,则该位置为数据块的一个边界。重复这个过程,直至整个文件都被分块。