去重和压缩:数据简缩技术

在备份系统,重复数据删除是公认的技术术语,一般指消除备份数据集内的冗余部分。

但是,对主存储系统,数据简缩却是一个更准备的术语中,因为并不是所有的主存系统都采用重复数据删除技术。作为一类技术的总称,任何能降低磁盘空间的技术都包括在数据简缩的范围之内。目前,数据简缩技术主要包括三种:数据压缩、文件级的重复数据删除、块级(字节级)的重复数据删除。

那么,备份系统和主存系统究竟有哪些分别?其实,最主要是对数据实体的存储与访问方式的差异。备份系统,是典型的批量写,一般通过进程自动化处理,在这个过程中很少有读,但生产系统的性能会有暂时的降低,不过不会对系统的使用产生 重大影响。而主存系统,是读与写随机存在模式,如果在此过程中,系统性能产生比较重要的下降,乃至影响到用户体验,那生产成本的下降将毫无意义。而且,在主存系统中使用数据简缩技术的另外一个问题是,是否能达到与备份系统一样的效果。所以说,当前,数据简缩对主存系统是得是弊,殊难预料!

 压缩,主要是针对那些访问频率还是很高的文件,优势是技术成熟。在主存和备份系统中都有广泛应用,是一种很成熟的技术。

文件级去重。文件级去重即在文件系统中检查并判断两个文件是否完全相同。如果去重系统发现两个相同的文件,其中之一就会被指向另一个文件的指针所取代。这项技术的优点是不会影响数据的读取性能,而且用户打开文件时,也不需要进行解压缩或者数据重组,它只是简单地将多份访问请求链接到同一份数据。这种方法的缺点是效率问题,与压缩技术或者块级去重相比,它显然无法达到同样高的数据简缩比率。

块级重复数据删除。这个方案与备份系统中使用的基于哈希值比对的重复数据删除非常相似。它将所有的文件分解成数据块,然后通过散列算法,为每个块创建一个哈希值,并与其他所有数据块的哈希值进行比对,如果两个不同数据块的哈希值完全一致,其中的一个块就会被删除,并用指向另一个块的指针来代替。针对某些数据类型,块级去重的数据简缩效果相当明显。其中,对虚拟机系统,尤其是桌面虚拟化系统的映像文件,块级去重的效果最为惊人。在这种环境下,将数据简缩掉75%甚至90%都很常见。

块级去重是全局处理模式,能够发现存储空间内所有的重复数据,无论数据以怎样的形式保存,这是它的优点。这种方法的缺点是,它分割的数据块较大。压缩则恰好相反,压缩是一种粒度级别更低的处理机制,比如,去重算法可能将数据块的大小定义为8KB,而一个优秀的压缩算法会将块的大小缩小到4KB。这就是为什么有一些数据简缩系统同时使用压缩和去重两种技术的原因。

GreenByte公司提供的块级重复数据删除,提供了一个不同的实现,它使用自己的算法,tiger!ms能提供更高的性能。

同许多其他厂商相比,Ocarina Networks公司采用的数据简缩方法完全不同。多数厂商使用的压缩和去重技术并不会识别数据的类型,而Ocarina公司则有数百种不同的压缩和去重算法,针对每一种特定类型的数据。比如,他们使用完全不同的压缩技术去处理word文档和图像文件。

TechTarget中国原创内容,原文链接:http://www.searchstorage.com.cn/showcontent_35899.htm

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值