重复数据删除(通常称为重复数据删除)是一项功能,可帮助降低冗余数据对存储成本的影响。 启用后,重复数据删除会检查卷上的数据(检查是否存在重复分区),优化卷上的可用空间。 卷数据集的重复分区只存储一次,并可以压缩,节省更多空间。 重复数据删除可优化冗余,而不会损坏数据保真度或完整性。
好处:
- 节约硬盘空间:由于不必存储重复数据,因此大大节约的磁盘空间。
- 提升写入性能:数据写入存储设备的主要性能瓶颈在于硬盘,由于硬盘是机械设备,一般单块硬盘只能提供100MB/s左右的连续写性能。在线重复数据删除在数据存入硬盘之前就把重复的数据删除掉了,因此存入硬盘的数据量变小了,数据的写入性能也就提高了。例如:DataDomain重删备份介质设备就采用在线重删技术,因此数据写入性能较好。
- 节约网络带宽:对于使用了源端重删技术的应用来说,数据上传到存储设备之前,已经去掉了重复的数据块,因此重复的数据块不需要经过网络传输到存储介质,从而节约了网络带宽。例如:Dropbox就采用了源端重删技术,因此占用网络带宽很小,还有开源的数据同步工具rsync也采用了源端重删技术节约网络带宽。
重复数据删除有用的原因是什么?
重复数据删除可帮助存储管理员降低重复数据的相关成本。 大型数据集通常具有 大量 重复数据,增加了数据的存储成本。 例如:
- 用户文件共享可能会有相同或类似文件的多个副本。
- 不同 VM 的虚拟化来宾可能几乎完全相同。
- 每天的备份快照差别可能非常小。
通过重复数据删除可以节省的空间取决于卷上的数据集或工作负荷。 重复率很高的数据集的优化率最高可达 95%,存储使用率最高降低 20 倍。 下表主要显示了各种内容类型的典型的重复数据删除节省情况:
按数据处理时间重复数据删除可以被分为:
在线重删(Inline Deduplication)
指的是在数据存储到存储设备上的同时进行重复数据删除流程,在数据存储到硬盘之前,重复数据已经被去除掉了。
后重删(Post Deduplication)
指的是在写到存储设备的同时不进行重删处理,先把原始数据写到硬盘上,随后启动后台进程对这些原始数据进行重删处理。与在线重删相比较,后重删需要更高的硬盘性能,需要更多的硬盘数量。
按照数据处理粒度可以被分为:
- 文件级重删
- 块级别重删
按照数据块分块方法,可以分为:
- 变长分块重删
- 定长分块重删
按照数据处理位置,可以分为:
- 源端重删
- 目的端重删