文件数据块分块算法解析

最新推荐文章于 2024-07-03 22:52:37 发布

快乐的霖霖

最新推荐文章于 2024-07-03 22:52:37 发布

阅读量5.9k

点赞数 2

分类专栏：存储基础知识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chdhust/article/details/8777249

版权

本文详细解析了文件数据块分块算法，包括定长分块、内容定义分块(CDC)和滑动块分块。定长算法简单但对数据变化敏感；CDC算法基于内容，对插入和删除不敏感，但块大小确定困难；滑动块算法结合两者优点，处理高效，但易产生碎片。

摘要由CSDN通过智能技术生成

文件数据块分块算法解析

1. 简介

存储系统的重复数据删除过程一般是这样的：首先将数据文件分割成一组数据块，为每个数据块计算指纹，然后以指纹为关键字进行Hash查找，匹配则表示该数据块为重复数据块，仅存储数据块索引号，否则则表示该数据块是一个新的唯一块，对数据块进行存储并创建相关元信息。这样，一个物理文件在存储系统就对应一个逻辑表示，由一组FP组成的元数据。当进行读取文件时，先读取逻辑文件，然后根据FP序列，从存储系统中取出相应数据块，还原物理文件副本。从如上过程中可以看出，存储系统的重复数据删除的关键技术主要包括文件数据块切分、数据块指纹计算和数据块检索。

2.数据块分块算法

2.1 定长分块(fixed-size partition)

定长分块算法采用预先义好的块大小对文件进行切分，并进行弱校验值和md5强校验值。弱校验值主要是为了提升差异编码的性能，先计算弱校验值并进行hash查找，如果发现则计算md5强校验值并作进一步hash查找。由于弱校验值计算量要比md5小很多，因此可以有效提高编码性能。定长分块算法的优点是简单、性能高，但它对数据插入和删除非常敏感，处理十分低效，不能根据内容变化作调整和优化.

下面的chunk_file_hdr和chunk_block_entry数据结构见博客：http://blog.csdn.net/chenglinhust/article/details/8776830。

代码为：

/* fix-sized file chunking */
/*fd_src为分块的源文件*/
/*fd_c

最低0.47元/天解锁文章

快乐的霖霖

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
2
评论
文件数据块分块算法解析

文件数据块分块算法解析1. 简介存储系统的重复数据删除过程一般是这样的：首先将数据文件分割成一组数据块，为每个数据块计算指纹，然后以指纹为关键字进行Hash查找，匹配则表示该数据块为重复数据块，仅存储数据块索引号，否则则表示该数据块是一个新的唯一块，对数据块进行存储并创建相关元信息。这样，一个物理文件在存储系统就对应一个逻辑表示，由一组FP组成的元数据。当进行读取
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。