介绍
数据重复删除技术是指删除数据存储或副本发送的多种方法,它可以减少存储数据空间和降低成本,在使用昂贵的网络链接时,降低传输成本。如果合理使用的话,数据重复删除技术可以通过删除I/O来改善性能。
数据重复删除技术会作用于相同数据块的数据集。譬如,不同虚拟机图像虚拟化环境可共享客户操作系统副本,另外其他模块则独立于虚拟机。利用数据重复删除技术,仅独立于每个存储虚拟机的数据才需要进行存储操作。邮件服务器是另一个例子,它涉及到多用户接受相同文档或附件。其他情况下,数据重复删除技术还可用于多开发者共享同一代码集合的资源代码库,以及备份存储库。
许多方法都可以用于检测重复数据。一方面涉及到如何检测重复数据的问题,其方法包括基于字节、文件和数据块的方式。基于字节是最常用的方法,可用于CPU密集型,该方法不限制整个文件或固定数据块边界的比较。基于文件是最简单的方法,仅用于检测完全相匹配的文件;大文件和单个字节区别在于模块中无法享受到数据重复删除技术的优势。基于模块数据重复删除技术用于比较个人物理模块。开始创建文件时,如果复制大文件和添加字节,即使两个文件基本相同,也无法搜索到复制数据。
据写入存储系统时,可同步执行数据重复删除技术或进行后期处理操作。如果执行同步操作的话,则可能带来潜在性能影响。如果执行异步的话,数据被写入后,在释放空间之前,您必须有足够的空间存储复制数据。另外,您也可以进行在当前存储系统中写入额外I/O数据。
NexentaStor数据重复删除技术
NexentaStor公布了数据重复删除技术3.0.0发行本,该版本基于块执行操作&#x