重复数据删除技术概述

最新推荐文章于 2022-05-12 10:40:32 发布

Jason__Zhou

最新推荐文章于 2022-05-12 10:40:32 发布

阅读量4.7k

点赞数

分类专栏：文件系统文章标签： linux 数据压缩分布式存储 rsync 重复数据删除

本文链接：https://blog.csdn.net/XingKong_678/article/details/40272705

版权

本文介绍了重复数据删除的分类，包括源端和目标端、在线与离线以及操作粒度差异。接着详细分析了重复数据删除的过程，涉及数据划分、指纹计算、检索、冗余消除、系统安全性和可扩展性。同时，文章讨论了Rsync数据同步算法的工作原理，包括其数据分块、传输和比对机制。最后，提出了系统优化策略和数据同步的PULL、PUSH两种模式。

摘要由CSDN通过智能技术生成

重复数据删除技术概述

一、重复数据删除的分类

1. 源端重复数据删除和目标端重复数据删除

源端消重在数据源进行，传输的是已经消重后的数据，能够节省网络带宽，但会占用大量源端系统资源。

目标端消重发生在目标端，数据在传输到目标端再进行消重，它不会占用源端系统资源，但占用大量网络带宽。

2. 在线重复数据删除和离线重复数据删除

采用在线消重模式，数据写入存储系统同时执行消重，因此实际传输或写入的数据量较少，适合通过LAN或WAN进行数据处理的存储系统，如网络备份归档和异地容灾系统。由于它需要实时进行文件切分、数据指纹计算、Hash查找，对系统资料消耗大。

先将数据写入存储系统，然后利用适当的时间再进行消重处理。这种模式与前面一种刚好相反，它对系统资料消耗少，但写入了包含重复的数据，需要更多的额外存储空间来预先存储消重前数据。这种模式适合直连存储DAS和存储区域网络SAN存储架构，数据传输不占用网络带宽。另外，离线消重模式需要保证有足够的时间窗口来进行数据去重操作。

3. 操作粒度的差异

操作颗粒度分为文件级、块级和字节，比特位级重复数据删除。

块级又可以根据划分块的长度是否可变，分为定长块和变长块的重复数据删除技术。

操作的粒度越小删除的冗余数据越多，但实现的复杂程度和系统开销也相应增加。

重复数据删除技术也应用在虚拟机环境下的主存储系统中．由于虚拟机环境中的每个虚拟机都要求为其操作系统采用专用的存储，用户有可能为很多虚拟机安装同样的操作系统和应用程序；因此，利用重复数据删除技术可以为基于虚拟机的主存储系统节省大量的存储空间。

二、过程分析

首先将数据文件分割成一组数据块，为每个数据块计算指纹，然后以指纹为关键字进行Hash查找，匹配则表示该数据块为重复数据块，仅存储数据块索引号，否则则表示该数据块是一个新的唯一块，对数据块进行存储并创建相关元信息。这样，一个物理文件在存储系统就对应一个逻辑表示，由一组FP组成的元数据。当进行读取文件时，先读取逻辑文件，然后根据FP序列，从存储系统中取出相应数据块，还原物理文件副本

重复数据删除的过程主要分为：

l 数据划分

l 数据块指纹特征计算

l 数据块检索

l 冗余消除数据存储

l 相同数据检测还是采用相似数据检测和差异编码技术

对比传统的存储系统，重复数据删除系统基于内容寻址，而不是基于文件名寻址；尽管

减少了写操作，但由于增加了重复数据删除处理过程，较传统存储系统的i／o性能要低；由于每次只写新的数据，重复数据删除系统具有顺序写、随机读的特点．

1. 数据划分

1) 全文件分块: 将每个完整的文件当作一个分块:

应用:EMC的CenteraE、微软的Windows2000上的SIS 均采用全文件分块技术来实现重复数据删除

缺点:不能发现文件内部以及文件之间更小粒度的数据冗余

优点:简单有效，并且节省空间量能够达到最优块级划分策略的3/4

2) 定长分块

定长分块算法采用预先义好的块大小对文件进行切分，并进行弱校验值和md5强校验值。弱校验值主要是为了提升差异编码的性能，先计算弱校验值并进行hash查找，如果发现则计算md5强校验值并作进一步hash查找。由于弱校验值计算量要比md5小很多，因此可以有效提高编码性能。定长分块算法的优点是简单、性能高，但它对数据插入和删除非常敏感，处理十分低效，不能根据内容变化作调整和优化。

应用: 内容寻址的文件系统Venti和Oceanstore

缺点:对数据插入和删除非常敏感，处理十分低效，不能根据内容变化作调整和优化

优点: 定长分块算法的优点是简单、性能高, 适用于更新操作少的静态数据集