谈谈重复数据删除

10年前重复数据删除技术还是存储领域中十分先进的技术手段。10年前李凯带领团队推出了首个基于重复数据删除的备份设备,并且至今一直保持了将近60%的市场份额。不得不说DataDomain的创业是成功的,DataDomain的持续领先是值得骄傲的。DataDomain在创业之初就设置了很强的技术屏障,重复数据删除技术应用的一个很大障碍是如何突破磁盘IO瓶颈。那个时候还没有大容量的SSD盘,只有一些基于Flash技术的Dom卡,这些卡的读写性能也很差,所以,那个时候还很少有人考虑通过Flash来对磁盘IO进行优化。所以对于在线重复数据删除,最大的问题就在于如何突破磁盘IO瓶颈。

重复数据删除的基本原理比较简单,其可以分成三大步骤:第一步是进行文件切块,为了提高重复数据删除效率,可以采用变长切分方法实现文件切块。第二步是进行重复数据查找,这一步是关键,如何实现重复数据块的快速查找是系统实现的关键。第三步是非重复数据块的存储。仔细分析,重复数据删除的前两大步骤是系统实现的关键,第一步会影响到重复数据删除效率,但已经有很多现有算法可以实现变长数据块切分,具体可以参考《重复数据删除过程中的数据自动分段》。第二步应该说是重中之重,往往是公司的核心技术。DataDomain有一个专利技术SISL,可以很好的对重复数据删除在备份领域应用进行了优化,从而使得数据访问的Cache命中率很高,系统的性能得到最大化发挥。对于这一部分内容可以参考李凯发表的论文《AvoidingtheDiskBottleneckintheDataDomainDeduplicationFileSystem》。DataDomain的产品是针对备份领域的,备份领域一个最大的特点是追求吞吐量和容量。并且数据备份的IOPattern是比较固定的,绝大部分是顺序大数据写操作,并且会存在很多的全备份应用。因此,对于这种IOPattern,无需考虑小写、随机写带来的磁盘抖动等问题。特别是全备份应用会引入很明显的IO局部性特征,这就是SISL专利的精华所在。

随着时代的变迁发展,全备份应用不能被用户接收,增量备份是应用主流。在这种应用模式下,SISL的特征是否会有所改变?这种特征的改变会不会对整个系统的吞吐量带来影响?会不会又重新对磁盘的IO性能提出新的要求?是否需要采用其他方法避免磁盘瓶颈带来的问题?我的答案是YES。在重复数据删除设备火拼的时代,DataDomain找到了SISL特征,其他厂商为了避免磁盘瓶颈带来的问题,采用了并发磁盘IO的方法,但无论如何并发磁盘IO,都很难大幅度提高系统吞吐量。SISL应该只是针对一种应用模式的优化,对于其他应用模式,SISL未必能够购很好的发挥效能。所以,克服磁盘IO瓶颈还需要研究新的方法。

看一下针对Primary存储应用的重复数据删除。虽然我们看到很多系统中都有这样的软件,但是,这种重复数据删除往往都是offline的,无法做到在线实时的重复数据删除,其最核心的关键还是在于无法很好避免磁盘的IO瓶颈。所以,无论是在primary存储领域还是在备份存储领域,目前的形势和问题似乎是相同的,为了提高重复数据删除效率,为了实现在线高效重复数据删除,我们需要更好的方法规避磁盘IO带来的性能瓶颈问题。对于Primary存储,这里的性能问题还需要额外考虑:延迟。

10年过去了,SSD技术也相对成熟了,我们是否可以通过SSD技术来避免磁盘的IO瓶颈呢?重复数据删除的指纹信息是否可以存储在SSD中呢?答案是肯定的。通过SSD技术我们一定可以加速重复数据的查找。另外,也可以考虑在线和离线重复数据删除结合的办法来避免磁盘IO瓶颈。我相信,重复数据删除技术在存储领域的应用才开始,虽然该技术已经存在10多年,但是,该技术还没有在各个领域得到有效的、大规模应用。期待重复数据删除能够放射出他应有的、更加绚烂的光芒!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值