重复数据删除:不再游走在边缘

数据保护技术正在日新月异地不断发展,其中一项令人振奋的技术就是“重复数据删除”。 从“容量优化”,到“公共分流”以及“单一实例”,不同的厂商对此有着不同的称呼和术语,但主旨都是清扫用户存储空间中大量重复的、冗余的数据。减少对存 储备份的空间需求,进而帮助用户节约成本。

    重复数据删除技术大约是在去年进入人们视线的,最初提供这项技术产品的厂商包括Asigra,Avamar,DataDamain,Diligent,以 及OEM软件厂商Rocksoft等,如今我们看到所有销售数据保护产品的厂商们都开始涉猎这项技术。业内人士对重复数据删除寄予了厚望,甚至预测重复数 据删除技术将远远超越CDP成为今年最热门的新技术。

使用重复数据删除会有什么好处?

    重复数据删除能帮助最终用户节省在IT方面存储空间的投入,不断发展的重复数据删除技术可以大大降低用户对后端介质的需求,而不是以牺牲数据保护作为代 价。它可以将备份数据的量减少20倍,如果我们用金钱来衡量的话,重复数据删除可以将存储的费用从每GB 30美元减少到1.5美元!这种强大的成本优势理所当然在IT买家中造成轰动。

    不仅仅如此,最终用户对重复数据删除还抱有更多的期待,在今后的几年时间里,重复删除还将成为主存储系统最小化数据冗余的一种选择,以及不同广域网服务的引擎,因为在流量较小的广域网中复制操作更容易进行,因而重复数据删除也显得尤为重要。

重复数据是如何删除的?

    我们很难理解重复数据删除的具体工作原理。对于用户来说,与之相关并且容易混淆的概念包括全量备份和增量备份。顾名思义,全量备份是拷贝整个磁盘卷的内 容,我们很容易想象系统经过多次全量备份后会产生多少的重复数据。增量备份是针对于上一次备份(无论是哪种备份):完成上一次备份后,所有发生变化的文 件。当然用户往往会根据自身的情况设定备份策略,交叉使用多种备份模式。

    重复数据删除要比增量备份走得更远:增量备份将备份量减到最小,只复制了每次完全备份操作之后有变化的数据块,而重复数据删除只复制了那些变化后的不同的 数据块。理想情况是,重复数据删除是在数据写入到存储系统之前完成的(例如Asigra和Avamar),或者是在数据写入到存储系统的过程之中进行的 (例如Data Damain和Diligent),但是,如果你更加注重数据的保真度,也可以在数据写入到存储系统之后进行,这样就可以避免意外删除一些宝贵的唯一数 据。

    重复数据删除的过程就是从存储数据中删除相同的电子邮件信息或者文件。一些厂商会在备份软件中集成重复数据删除的功能,如RenewData的 ActiveVault,在备份输出时没有必要执行额外的重复数据删除。另外一些厂商则选择将重复数据删除删除作为一个单独的过程来执行,因为他们在自己 的系统中没有单一实例存储模型。

    以电子邮件的应用为例,标准输出恢复选项通常包括:

    全部恢复(相当于不执行重复数据删除)

    本地电子邮件:电子邮件文件包括给目标用户的所有信息,这其中包括了在所有位置的复制信息。

    本地用户文件:用户目录里包含了所有目标用户的文件,这其中包括了在所有位置的复制文件。

    单一实例目标用户恢复(使用重复数据删除)

    本地电子邮件:电子邮件文件包括一个实例,每一条信息在文件夹中都是以字母顺序排列的,因此,如果信息1存在于两个文件夹中,文件夹A和文件夹B,然后一次输出,信息1将只存在于文件夹A中。

    本地用户文件:用户目录只包含了一个每一个文件在所有位置中的实例。

    单一实例文件夹或路径目标用户恢复(使用重复数据删除)

    本地电子邮件:电子邮件文件包括一个实例,每一条信息属于任意文件夹。因此,如果信息1属于两个文件夹,文件夹A和文件夹B,那么一个实例中,信息1将分别包含在每个文件夹中。

    本地用户文件:用户目录只包含了一个每一个文件在各自文件夹中的实例。

    全局单一实例恢复(全局使用重复数据删除)

    本地电子邮件:只有一个实例,包含了所有目标用户的每一条信息。

    本地用户文件:只有一个实例,包含了所有目标用户的每一个用户文件。

从边缘到关键应用

    如今几乎所有数据保护供应商都拥有重复数据删除的相关产品,尽管重复数据删除事实上砍掉了厂商VTL产品的部分容量销售额,直接影响到厂商的最终收益,但 是我们看到,这些数据保护供应商仍然不遗余力的在推广重复数据删除所能带来的种种优势。而重复数据删除在成本上可能产生的巨大收益,让更多的用户无法抵御 他的诱惑。

    一家总部设在明尼阿波利斯的律师事务所Winthrop & Weinstine就使用了重复数据删除技术提供的新的备份模式。该事务所使用Data Domain提供的备份和恢复软件,将数据复制到远程站点。而这家公司的信息主管认为,重复数据删除帮助他们减少了近20倍的备份存储数据量。

    事实上,该企业原有的备份架构是稳定的,但问题在于备份系统中大量冗余的数据导致了庞大的数据量,把如此庞大的数据发送到远程站点进行容灾备份变得不再现 实。为此该公司使用Data Domain的重复数据删除功能,当数据量被压缩了20倍左右之后,基于磁盘介质的备份模式不再昂贵得无法接受,而该事务所也得以摆脱了传统的磁带备份, 有了全新的容灾架构的选择。我们可以看见,重复数据删除不仅仅帮助这家事务所改善了灾难恢复的性能,还节省了投入资金。也就是说,公司减少了对第三方备份 磁带的投入。

    另外一家位于纽约奥尔巴尼的医院St.Peter则采用重复数据删除来解决远程办公室的存储问题。他们使用Avamar Technologies公司的Axion软件,将远程站点备份到位于纽约奥尔巴尼的主办公区,同时还通过重复数据删除备份工具,备份该医院所有电脑终端 和移动用户的数据。

    整个2006年,业界对重复数据删除技术的关注不断升温。现在,重复数据删除技术的应用已经有了指导性的方法,2007年,我们预测重复数据删除将进一步 进驻用户系统。因为已经有相当一部分企业用户部署实现了这一技术,重复数据删除已经不再是一项边缘技术,这些成功案例给更多的用户以更大信心来使用。

    来自厂商的推动力也是帮助重复数据删除进驻主流备份架构的重要因素。除了我们前面提到的厂商,其他提供重复数据删除功能产品的厂商还包括Diligent Technologies,Exagrid System,FalconStor Software以及Sepaton。同时在市场上占像NetApp和Symantec这样的大厂商也开始涉足这一领域,进一步证明重复数据删除技术已经 有了一席之地。但是不同的厂商定价也不尽相同。举例来说,Avamar的软件每TB卖大约9千美元,Data Domain的软件和网关定价从1万9千美元到10万5千美元不等。

 

萨班斯法案的推动力

    我们已经看到重复数据删除在用户系统中成功应用的多个案例,但是对于另外一部分公司来说,重复数据删除不仅仅是一个热门词汇这么简单。

    Vaalco Energy是一家休斯敦的石油天然气开采公司,该公司对重复数据删除的真正需求聚焦于去年困扰该公司的萨班斯法案的财务审计中。萨班斯法案要求上市公司 必须保存相关电子邮件的副本作为存档,并能在适当时候予以恢复查询,为此,该公司不得不快速证明公司的备份和恢复过程是遵守法律法规的严格规定的。

    该公司最终采用了Asigra公司发布的Televaulting软件,其中集成了重复数据删除的功能。虽然Vaalco最初只把重复数据删除技术应用在 保存电子邮件方面,以满足萨班斯法案的要求,但该公司很快就发现了这项技术更大的好处。重复删除可以减少数据存储量,因而更加适于在线传输到异地进行灾难 备份,从而减少了公司的后顾之忧。

    重复删除技术在企业中的作用是避免了使用磁带备份和异地备份,从而让公司可以选择高可用性的磁盘介质作为主要备份架构,因而彻底的摆脱磁带备份所带来的, 很多公司对这项技术都十分感兴趣。美国企业战略集团的分析师表示:“如果你释放出了更多的存储空间,你可能会选择将数据内嵌。”

部属与应用密切相关

    尽管今天单位存储空间的成本不断走低,但企业需要存储或者备份的数据量仍然在持续上涨,导致了企业在磁盘存储空间方面无止境的成本投入。现在,已经有相当的一部分用户已经部署了重复数据删除,那么企业真正在部署重复数据删除的时候,需要考虑哪些问题呢。

    综合一些已经部署了重复数据删除的用户以及一些专家的意见后我们建议,在决定将这项存储管理技术应用在你的企业之前,首先需要问问你自己:

    使用重复删除技术是否刻不容缓?还是可以晚一点再来实施?公司执行的是磁盘到磁盘的备份策略,还是使用其他磁带介质来做增量备份?是否有后端容量约束?是否已经没有足够的磁盘空间来存储所有的数据了?

    其次需要详细咨询你的厂商:

    重复数据删除发生在哪里?是在客户端传送数据之前?是在磁盘设备传送数据之后?还是在数据写入虚拟磁带柜的过程之中?解决方案是否能够处理客户所有的备份 流?系统是否支持类似于IETF的会话初始化协议(Session Initiation Protocol)的标准?如果重复数据删除在客户端进行,是否能快速生成可摄取的数据来满足高处理能力的系统要求?使用何种方法来确定复制的信息,如何 确保没有错误地为数据分类?

    企业中的重复数据多占用了10到20倍的存储空间,这种情况将最终会被消灭,重复数据删除将帮助用户释放出更多的存储空间。

    从这个方面来说,重复数据删除的前景似乎可以得到保证,因为存储空间总是会需要资金投入的。企业财务人员和决策者卡住了IT经理的脖子,一方面他们不愿意 丢掉任何信息,因为害怕卷入官司或审计之中,另外一方面,又需要时刻面对因数据量飞速膨胀而导致在存储设备上的投入不断增长,减少存储数据的容量就成为为 数不多的选择了。

深度学习是机器学习的一个子领域,它基于人工神经网络的研究,特别是利用多层次的神经网络来进行学习和模式识别。深度学习模型能够学习数据的高层次特征,这些特征对于图像和语音识别、自然语言处理、医学图像分析等应用至关重要。以下是深度学习的一些关键概念和组成部分: 1. **神经网络(Neural Networks)**:深度学习的基础是人工神经网络,它是由多个层组成的网络结构,包括输入层、隐藏层和输出层。每个层由多个神经元组成,神经元之间通过权重连接。 2. **前馈神经网络(Feedforward Neural Networks)**:这是最常见的神经网络类型,信息从输入层流向隐藏层,最终到达输出层。 3. **卷积神经网络(Convolutional Neural Networks, CNNs)**:这种网络特别适合处理具有网格结构的数据,如图像。它们使用卷积层来提取图像的特征。 4. **循环神经网络(Recurrent Neural Networks, RNNs)**:这种网络能够处理序列数据,如时间序列或自然语言,因为它们具有记忆功能,能够捕捉数据中的时间依赖性。 5. **长短期记忆网络(Long Short-Term Memory, LSTM)**:LSTM 是一种特殊的 RNN,它能够学习长期依赖关系,非常适合复杂的序列预测任务。 6. **生成对抗网络(Generative Adversarial Networks, GANs)**:由两个网络组成,一个生成器和一个判别器,它们相互竞争,生成器生成数据,判别器评估数据的真实性。 7. **深度学习框架**:如 TensorFlow、Keras、PyTorch 等,这些框架提供了构建、训练和部署深度学习模型的工具和库。 8. **激活函数(Activation Functions)**:如 ReLU、Sigmoid、Tanh 等,它们在神经网络中用于添加非线性,使得网络能够学习复杂的函数。 9. **损失函数(Loss Functions)**:用于评估模型的预测与真实值之间的差异,常见的损失函数包括均方误差(MSE)、交叉熵(Cross-Entropy)等。 10. **优化算法(Optimization Algorithms)**:如梯度下降(Gradient Descent)、随机梯度下降(SGD)、Adam 等,用于更新网络权重,以最小化损失函数。 11. **正则化(Regularization)**:技术如 Dropout、L1/L2 正则化等,用于防止模型过拟合。 12. **迁移学习(Transfer Learning)**:利用在一个任务上训练好的模型来提高另一个相关任务的性能。 深度学习在许多领域都取得了显著的成就,但它也面临着一些挑战,如对大量数据的依赖、模型的解释性差、计算资源消耗大等。研究人员正在不断探索新的方法来解决这些问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值