我们的磁盘备份设备的容量已经趋于饱和,在数据中心已经没有足够的空间来备份PT级的数据,在这种情况下,当我们希望将备份数据保存一个月时,却只能保存两到三天。问题是在我们的备份设备中有太多的重复数据。现在终于有了解决这个问题的办法,善于抓住机会赚钱的厂商们声称他们的新一代“删除重复数据”产品可以按20:1,甚至300:1的比例缩减我们需要存储的数据量。果真如此吗?让我们仔细看看。
目前有两种主要的重复数据删除方法:基于散列的方法和基于字节比较的方法。基于散列的方法利用一种算法对输入数据进行处理来创建很小的表达式和数据唯一的标识符(即所谓的散列值)。然后,将其与保存在查寻表中的散列值进行比较。但是,利用查寻表来确定重复的散列串会造成巨大的性能压力,并且可能需要几周时间才能取得最优的重复删除效率。
但是,从经济角度考虑,磁带仍是存储的首选;在部署磁盘方案时,用户必须最大程度地减少存储在磁盘上的数据,以保持成本平衡。许多站点发现磁盘方案速度比磁带慢,因为它们作为备份设备没有进行优化。