我相信所有人都会同意,数据存储正在以飞快地,甚至是令人震惊的速度在增长。
这意味着为了不影响普通用户的正常使用,存储管理员们不得不加班加点地在幕后
工作着。他们的鲜为人知的工作包括:配额管理,快照(snapshots),数据备份,
数据复制(replication),为灾难时数据恢复而做的数据备份,离线数据拷贝,
已删除的用户数据的恢复,监测数据增长和数据使用率,以及其他为确保应用平稳
运行所做的数以千计的工作(正如花样游泳,从水上看起来非常优雅美观,而在
水下,运动员的腿和手臂不得不飞快地摆动。)
我把存储专家与花样游泳运动员类比,可能会让两方面的人都不高兴(我得
道歉)。现在让我们来看一下这项新技术是如何使得存储管理人员的工作轻松
而又节约企业预算的。这项新技术叫做重复数据删除。虽然这是一项新技术,
但通过我的介绍你会知道它其实也是已有技术的变形,虽然它对多数存储系统
产生了巨大影响。闲话少说,让我们来看一下重复数据删除这项技术。
简介
重复数据删除,其实很简单,遇到重复数据时不是保存重复数据的备份,
取而代之,增加一个指向第一份(并且是唯一一份)数据的索引。从根本
上讲,它能减少存储数据所占用的空间。这会带来如下好处:
节约IT经费(不需要为所需要的额外空间增加投资)
减少备份数据,数据快照等的大小(节约经费,节约时间,等)
较少电源压力(因为更少的硬盘,更少的磁带等)
节约网络带宽(因为只需要更少的数据)
节约时间
因为需要较少的存储空间,磁盘备份成为可能。
上面这些好处也正是重复数据删除技术风靡当前的根本原因。又有谁会不喜欢节约
经费,时间,网络带宽呢?但是像很多美好的东西一样,魔鬼存在于细节中。本文
将会介绍重复数据删除方面的概念及存在的问题。
重复数据删除绝不是新事物,事实上它只是数据压缩的衍生品。数据压缩在单个
文件范围内删除重复的数据,代之以指向第一份数据的索引。重复数据删除把这
个概念进行如下扩展:
单个文件范围内(跟数据压缩完全一致)
跨文件
跨应用
跨客户端
跨时间
重复数据删除与数据压缩的主要区别在于:假如你有两个完全相同的文件,数据
压缩会对每个文件进行重复数据的排除并代之以指向第一份数据的索引;而重复
数据排除则能分辨出两个文件完全相同,从而只保存第一个文件。而且,它还跟
数据压缩一样,排除掉第一个文件里的重复数据,从而减小所存储数据的大小。
下面是个简单的重复数据删除的例子,来自EMC视频。
图1 重复数据删除
该例中一共有三个文件。第一个文件,document1.docx,是个大小为6MB的简单的
word文档。第二个文件,document2.docx,是第一个文件的拷贝,只是文件名
不同。最后那个文件,document_new.docx,在document1.docx基础了进行某些
小的修改,其大小仍旧为6MB.
假设重复数据删除程序会把文件分割成6个部分(6在实际应用中可能太小,这儿
只是为了说明用)。现在第一个文件有A,B,C,D,E和F六个部分。第二个文件既然
是第一个文件的拷贝,所有有会被分成完全相同的六个部分。第三个文件相比
前两个文件只有一部分发生了变化(标记为G),其大
这意味着为了不影响普通用户的正常使用,存储管理员们不得不加班加点地在幕后
工作着。他们的鲜为人知的工作包括:配额管理,快照(snapshots),数据备份,
数据复制(replication),为灾难时数据恢复而做的数据备份,离线数据拷贝,
已删除的用户数据的恢复,监测数据增长和数据使用率,以及其他为确保应用平稳
运行所做的数以千计的工作(正如花样游泳,从水上看起来非常优雅美观,而在
水下,运动员的腿和手臂不得不飞快地摆动。)
我把存储专家与花样游泳运动员类比,可能会让两方面的人都不高兴(我得
道歉)。现在让我们来看一下这项新技术是如何使得存储管理人员的工作轻松
而又节约企业预算的。这项新技术叫做重复数据删除。虽然这是一项新技术,
但通过我的介绍你会知道它其实也是已有技术的变形,虽然它对多数存储系统
产生了巨大影响。闲话少说,让我们来看一下重复数据删除这项技术。
简介
重复数据删除,其实很简单,遇到重复数据时不是保存重复数据的备份,
取而代之,增加一个指向第一份(并且是唯一一份)数据的索引。从根本
上讲,它能减少存储数据所占用的空间。这会带来如下好处:
节约IT经费(不需要为所需要的额外空间增加投资)
减少备份数据,数据快照等的大小(节约经费,节约时间,等)
较少电源压力(因为更少的硬盘,更少的磁带等)
节约网络带宽(因为只需要更少的数据)
节约时间
因为需要较少的存储空间,磁盘备份成为可能。
上面这些好处也正是重复数据删除技术风靡当前的根本原因。又有谁会不喜欢节约
经费,时间,网络带宽呢?但是像很多美好的东西一样,魔鬼存在于细节中。本文
将会介绍重复数据删除方面的概念及存在的问题。
重复数据删除绝不是新事物,事实上它只是数据压缩的衍生品。数据压缩在单个
文件范围内删除重复的数据,代之以指向第一份数据的索引。重复数据删除把这
个概念进行如下扩展:
单个文件范围内(跟数据压缩完全一致)
跨文件
跨应用
跨客户端
跨时间
重复数据删除与数据压缩的主要区别在于:假如你有两个完全相同的文件,数据
压缩会对每个文件进行重复数据的排除并代之以指向第一份数据的索引;而重复
数据排除则能分辨出两个文件完全相同,从而只保存第一个文件。而且,它还跟
数据压缩一样,排除掉第一个文件里的重复数据,从而减小所存储数据的大小。
下面是个简单的重复数据删除的例子,来自EMC视频。
图1 重复数据删除
该例中一共有三个文件。第一个文件,document1.docx,是个大小为6MB的简单的
word文档。第二个文件,document2.docx,是第一个文件的拷贝,只是文件名
不同。最后那个文件,document_new.docx,在document1.docx基础了进行某些
小的修改,其大小仍旧为6MB.
假设重复数据删除程序会把文件分割成6个部分(6在实际应用中可能太小,这儿
只是为了说明用)。现在第一个文件有A,B,C,D,E和F六个部分。第二个文件既然
是第一个文件的拷贝,所有有会被分成完全相同的六个部分。第三个文件相比
前两个文件只有一部分发生了变化(标记为G),其大