数据分块算法整理

本文介绍了数据分块算法在重复数据检测中的应用,包括固定分块、可变分块(基于FSP、CDC和fingerdiff)以及滑动块检测技术。各算法在处理文件内部重复数据时,利用不同策略进行块划分和指纹对比,以提高冗余检测效率。然而,算法的选择和参数设置直接影响检测精确度和存储开销。
摘要由CSDN通过智能技术生成

固定分块检测技术

基于FSP算法的块检测技术

完全文件检测不能用于文件内部的重复数据查找, 因此有研究者提出了更细粒度–块级别的重复数据检测。基于固定尺寸划分算法的相同数据块检测技术是使用固定大小的分块策略在存储系统中识别相同数据的方法
1)提供一个已经预先定义好的块的大小(该值独立于所存取的数据容),所有文件均按照这个固定的块大小进行划分。
2)每个划分好的数据块均通过哈希算法得到一个指纹值。
3)将该值与已存储的指纹值进行比对,如果检测到相同的值,则删除其代表的数据块,否则存储新的数据块。

可变分块检测技术

基于CDC(content-defined-chunking)算法的检测技术

CDC算法是应用Rabin指纹将文件切割成长度大小不一的分块策略,与固定分块策略不同的是,它对文件块进行划分的方法是基于内容的,因此数据块大小是可变的。
1)一个文件按照CDC算法分成若干数据块。CDC算法首先从头文件开始,将固定大小(互相重叠)的滑动窗口中的数据看成组成文件的各个部分。在窗口的每个位置,该窗口中数据的一个指纹被计算出来(此时的指纹是用来确定边界的),因为rabin指纹的高效性,通常使用rabin算法来计算滑动窗口的指纹。当指纹满足某个条件时,如当它的值模某个指定的整数位0时,则把此事窗口的位置作为块的边界。重复这个过程,直到整个文件数据都被分成块。

2)划分出的每个块用Hash函数计算出它的指纹值与已存储的数据块进行对比,如果检测到相同的指纹值,则删除其代表

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值