db2删除完全相同的重复数据_什么是重复数据删除？

最新推荐文章于 2022-10-31 13:50:57 发布

雨木生灵

最新推荐文章于 2022-10-31 13:50:57 发布

阅读量246

点赞数

文章标签： db2删除完全相同的重复数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28767599/article/details/112334647

版权

重复数据删除(通常称为重复数据删除)是一项功能，可帮助降低冗余数据对存储成本的影响。启用后，重复数据删除会检查卷上的数据(检查是否存在重复分区)，优化卷上的可用空间。卷数据集的重复分区只存储一次，并可以压缩，节省更多空间。重复数据删除可优化冗余，而不会损坏数据保真度或完整性。

好处：

节约硬盘空间：由于不必存储重复数据，因此大大节约的磁盘空间。
提升写入性能：数据写入存储设备的主要性能瓶颈在于硬盘，由于硬盘是机械设备，一般单块硬盘只能提供100MB/s左右的连续写性能。在线重复数据删除在数据存入硬盘之前就把重复的数据删除掉了，因此存入硬盘的数据量变小了，数据的写入性能也就提高了。例如：DataDomain重删备份介质设备就采用在线重删技术，因此数据写入性能较好。
节约网络带宽：对于使用了源端重删技术的应用来说，数据上传到存储设备之前，已经去掉了重复的数据块，因此重复的数据块不需要经过网络传输到存储介质，从而节约了网络带宽。例如：Dropbox就采用了源端重删技术，因此占用网络带宽很小，还有开源的数据同步工具rsync也采用了源端重删技术节约网络带宽。

重复数据删除有用的原因是什么？

重复数据删除可帮助存储管理员降低重复数据的相关成本。大型数据集通常具有大量重复数据，增加了数据的存储成本。例如：

用户文件共享可能会有相同或类似文件的多个副本。
不同 VM 的虚拟化来宾可能几乎完全相同。
每天的备份快照差别可能非常小。

通过重复数据删除可以节省的空间取决于卷上的数据集或工作负荷。重复率很高的数据集的优化率最高可达 95%，存储使用率最高降低 20 倍。下表主要显示了各种内容类型的典型的重复数据删除节省情况：

按数据处理时间重复数据删除可以被分为：

在线重删(Inline Deduplication)

指的是在数据存储到存储设备上的同时进行重复数据删除流程，在数据存储到硬盘之前，重复数据已经被去除掉了。

后重删(Post Deduplication)

指的是在写到存储设备的同时不进行重删处理，先把原始数据写到硬盘上，随后启动后台进程对这些原始数据进行重删处理。与在线重删相比较，后重删需要更高的硬盘性能，需要更多的硬盘数量。

按照数据处理粒度可以被分为：

文件级重删
块级别重删

按照数据块分块方法，可以分为：

变长分块重删
定长分块重删

按照数据处理位置，可以分为：

源端重删
目的端重删

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。