■ 本报记者 李洋 磁带库是企业数据中心进行数据备份的常用设备,近期随着重复数据删除技术的兴起,磁盘存储设备有望取代体积庞大的磁带库。美国计算机协会院士、普林斯顿大学计算机科学系讲席教授、Data Domain公司首席科学家、创始人李凯先生在北京作为会议主席主持第35届国际计算机系统结构学术会议(ISCA)期间接受了本报的独家专访,阐述了其对重复数据删除技术的看法。 早在2001年初的时候,李凯教授就计划成立一家从事磁盘存储的公司,公司成立的目标是生产一种可以取代磁带库进行企业数据中心备份的产品。 9·11事件发生后,座落于世贸中心的很多公司都遭受了重创,数据丢失对企业的经营影响很大,因此很多数据中心和金融企业对灾难的理解更加深刻,异地备份也更受到企业重视,只是用来传输数据的通信线路带宽有限,费用又较高,因此传输速度和带宽价格让用户颇为头痛。 9·11事件之后1个月,Data Domain公司诞生了,“当时成立这家公司是想解决数据中心对数据进行保护所遇到的头疼问题,一是用磁带库做数据中心内部数据保护的可靠性问题,二是为了防灾如何把数据传送到异地进行备份。”和磁带库相比,磁盘存储系统的性能优越,但是容量有限,如何才能在容量有限的系统上储存海量数据呢?这就是数据压缩技术,更准确来说就是重复数据删除技术(Deduplication)。 重复数据删除技术的原理非常简单,就是在系统对数据进行储存时采用一系列算法挑选出重复的数据,对重复的冗余数据进行删除,从而挤出空间。举例来说,如果甲乙两个公司签合同,经过双方对合同的多次修改后,一份合同可能会有多个版本保存在电脑中,每个版本都可能有相同的部分和不同的部分,这些重复的内容就是重复数据删除技术需要处理的,理想化的目标就是用最快的速度最大限度地对冗余数据进行删减加工。 据李凯教授介绍,实际上重复数据删除技术在90年代初就被学术界提出,但是一直未能有存储系统产品做出来,Data Domain是第一家将该技术产品化成存储系统的公司,但其产品化的过程却充满挑战,是在公司成立后经过了近两年的时间才完成产品设计和测试的。 “第一代产品是200,第二代是400,第三代是500,现在的第四代产品是600系列,在性能上大概增长了7~8倍。当时最初的产品是为中小型企业设计的,而如今的690是为大型数据中心设计的。” Data Domain虽然是最早进入到重复数据删除这一领域的企业,也是在美国最早推出相应产品的厂商,但是随着重复数据删除技术逐步升温,其他竞争厂商的产品也都推向市场,作为学者出身的李凯教授表示,Data Domain的产品在市场上已经销售了5年,有两千左右数据中心客户,现在销售的产品已经是第四代了,与其他刚刚涉足这一领域厂商的产品具有很大区别。举例来说,Data Domain的产品只需1个小时就可以完全安装完毕开始运行,数据发送过来后可以实时进行重复数据删除操作,没有延时等待。此外Data Domain的产品基本上无需用户管理维护,而且几乎所有的备份软件都可兼容。这些优点都源于李凯教授对重复数据删除技术的远见,自第一代产品就已植入重复数据删除技术,因此相对于在后期加入该技术的存储产品相比性能具有明显优势。 对于重复数据删除技术最为重要的压缩比,李凯教授表示如果用户每周对数据进行备份的话,压缩率可达20∶1,如果是每天做数据备份的话则可以达到50∶1到100∶1,如此高的数据压缩率使得一个小型的磁盘系统就能够代替一个像冰箱那么大的磁带库,耗电量仅为磁带库的十几分之一到二十几分之一,更加省电、环保。如果用户进行异地备份的话,由于重复数据删除技术对冗余数据进行了压缩,因此还能大幅节省用于传输数据的带宽费用。 磁带曾经是人们保存音乐、电影的存储介质,但是随着技术的进步,iPod和DVR已经取代了它的地位,目前似乎只能在数据中心的磁带库中见到磁带的踪迹,随着重复数据删除技术的发展,磁带的这一最后阵地也有可能即将失守。 李凯教授经历 1977年吉林大学计算机系第一批学生 1978年中国第一次恢复招考研究生时考入中国科学院 1981年出国,在美国耶鲁大学读博士 1986年得到博士学位去普林斯顿大学任教授 1992年获得普林斯顿大学终身教授资格 1998年获选美国计算机协会院士 2002年成为普林斯顿大学讲席教授 |