重复数据删除的方法



我们的磁盘备份设备的容量已经趋于饱和,在数据中心已经没有足够的空间来备份PT级的数据,在这种情况下,当我们希望将备份数据保存一个月时,却只能保存两到三天。问题是在我们的备份设备中有太多的重复数据。现在终于有了解决这个问题的办法,善于抓住机会赚钱的厂商们声称他们的新一代“删除重复数据”产品可以按20:1,甚至300:1的比例缩减我们需要存储的数据量。果真如此吗?让我们仔细看看。


目前有两种主要的重复数据删除方法:基于散列的方法和基于字节比较的方法。基于散列的方法利用一种算法对输入数据进行处理来创建很小的表达式和数据唯一的标识符(即所谓的散列值)。然后,将其与保存在查寻表中的散列值进行比较。但是,利用查寻表来确定重复的散列串会造成巨大的性能压力,并且可能需要几周时间才能取得最优的重复删除效率。


但是,从经济角度考虑,磁带仍是存储的首选;在部署磁盘方案时,用户必须最大程度地减少存储在磁盘上的数据,以保持成本平衡。许多站点发现磁盘方案速度比磁带慢,因为它们作为备份设备没有进行优化。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
IT技术的发展日新月异,随着互联网、云计算、移动终端和物联网的迅猛发展,全球数据量以每两年翻倍的速度增长,在2010年已经正式进入ZB时代,到2020年全球数据总量将达到44ZB。由此,信息技术已进入以数据为中心的时代,不断激增的数据量和数据虚拟化技术的发展,让传统的基础架构、数据存储方式和数据分析不断面临新的挑战。而随着存储技术的不断发展和完善,企业的IT技术架构正在从以服务器为中心逐渐向以数据存储为中心的方向演变。本课程以Windows Server 2012为平台,围绕云计算基础架构工程师、系统管理员、网络工程师等岗位对企业数据中心架构与维护的能力要求,通过引入行业标准和职业岗位标准,将DAS、SAN、NAS等网络存储技术融入到各个项目中,帮助读者快速掌握云存储技术。 本课程内容包括了存储服务器的本地管理(DAS)、NAS服务的配置与管理、SAN服务的配置与管理和综合应用四大部分。 1、存储服务器的本地管理(DAS)主要包括:存储服务器内硬盘、存储池的配置与管理,主要为用户提供可在线扩容、RAID10、RAID50等可容错扩展的存储空间、存储数据的自动备份与还原、硬盘的故障检测删除数据重复删除、文件加密、磁盘压缩等不同类型业务的存储支持。该部分内容由项目1~项目8构成。 2、NAS服务的配置与管理主要包括:存储服务器为企业应用服务提供文件共享、数据同步、负载均衡、磁盘配额等文件型数据存储服务。该部分内容由项目9~项目15构成。3、SAN服务的配置与管理主要包括:存储服务器为企业应用服务提供iSCSI的在线扩容、多链路负载均衡、高可用、安全传输等iSCSI存储区块服务。该部分内容由项目16~项目19构成。4、网络存储的综合运用则基于复合型业务应用场景,讲述如何融合运用DAS、SAN和NAS技术实现WEB应用服务器的负载均衡、基于集群的高可用WEB服务器部署、远程异地灾备中心、远程异地数据同步等业务的应用。该部分内容由项目20~项目23构成。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值