基于内容可变长度分块Content Defined Chunking

最新推荐文章于 2021-10-17 17:27:18 发布

TrueManWorld

最新推荐文章于 2021-10-17 17:27:18 发布

阅读量3.3k

点赞数

分类专栏：开发相关

开发相关专栏收录该内容

9 篇文章 0 订阅

订阅专栏

最近在研究开源网络云盘代码，发现他们在文件存储时用到一种文件切割复用的技术，能大大提高磁盘使用率，节省空间

在网上找了些这个技术（Content Defined Chunking）的一些说明。

基于内容可变长度分块

1，简介
重复数据块检测技术分为，固定分块检测技术(Fixed-Sized Partition, FSP)，可变分块检测技术(Variable-Sized Partition, VSP)，滑动块技术(Sliding Block)。
固定分块将数据流按固定的长度分块，实现很简单，但某一处数据的变化将导致之后的所有分块都发生变化，从而无法进行匹配。因此，固定分块技术在实际中应用较少。可变分块技术则可弥补固定分块技术的这一局限性，能更加灵活的找出重复数据。基于内容可变长度分块(Content-Defined Chunking, CDC)是可变分块(Variable-Sized Partition, VSP)的一种。

2，理论基础
CDC的理论基础是rabin fingerprint，请参照Michael O. Rabin的Fingerprinting by Random Polynomials.

3，具体实现
文件被分为长度可变的数据块,数据块的长度在一个规定的最小值和最大值之间。可变长度的数据块用一个滑动窗口来划分,当滑动窗口的 hash 值与一个基准值相匹配时就创建一个分块,这样数据块的尺寸就可达到一个期望的分布。Rabin’s fingerprint 预先定义两个整数 D 和 r(r<D) 一个大小为 w 的固定窗口在文件上滑动。假如在位置 k,固定窗口内数据的 hash 值为 f，如果f mod D = r,则该位置为数据块的一个边界。重复这个过程,直至整个文件都被分块。

实现起来也不是很复杂，但需要对每一次滑动都计算依次窗口内的hash值，计算量增加。另外，如果选择的D和r不合适，会导致窗口过小(很容易匹配上)或过大(很难匹配上)

CDC其实早已应用广泛，其最早是用在低带宽环境的数据传输与同步，如rsync即使用CDC技术，来检测本次备份与上次备份之间的差异，从而达到只传递差异部分的目的。

参考文献
1，低带宽环境下基于混合方法的文件复制算法*
徐旦 1+, 生拥宏 2, 鞠大鹏 2 ,吴建平 1,汪东升 2,3
2，Michael O. Rabin Fingerprinting by Random Polynomials.
3，基于Rabin指紋方法的URL去重算法

转自: http://blog.chinaunix.net/uid-25871104-id-3084904.html

TrueManWorld

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
基于内容可变长度分块Content Defined Chunking

最近在研究开源网络云盘代码，发现他们在文件存储时用到一种文件切割复用的技术，能大大提高磁盘使用率，节省空间在网上找了些这个技术（Content Defined Chunking）的一些说明。基于内容可变长度分块1，简介重复数据块检测技术分为，固定分块检测技术(Fixed-Sized Partition, FSP)，可变分块检测技术(Variable-Si
复制链接

扫一扫