不久前,笔者有幸对IBM科技与系统事业部磁盘存储产品首席技术总监Vincent Hsu(许育诚)先生进行了独家采访,感觉收获颇多。
Vincent Hsu是一位IBM卓越的工程师(决策层工程师),企业存储研发部门的首席架构师。他负责的工作包括企业存储战略和产品开发,业务连续性设计以及未来的存储技术开拓。许先生在IBM存储技术委员会中监管IBM的存储技术策略。
许育诚先生在存储部门工作了18年(在IBM一共21年)。他参加了多代企业存储产品的开发。由于他在存储技术方面的发明成就,许先生在IBM被指定为优秀的发明家。
IBM科技与系统事业部磁盘存储产品首席技术总监Vincent Hsu(许育诚)先生
在采访过程中,笔者感觉到许育诚先生从整体产品线规划和技术趋势的把握,到许多具体的细节,都有着清晰的理解和认识。由此我们对IBM的企业存储策略,多款磁盘存储产品的未来,乃至整个行业的发展方向都有了进一步的了解。
下面就把这次采访的精彩内容分享给大家。许育诚先生曾经是DS8000系列的总设计师,因此我们提出的第一个问题就从高端存储系统开始。当然,在后面陆续还有与NetApp的合作关系、GPFS文件系统,目前热门的Hadoop、SSD缓存,还有IBM今年重点发布的第三代XIV、即将更新的Storwize V7000等相关产品技术的讨论。
DS8000:未来基于Power的Scale-out?
ZDNet:我们看到目前多核x86 CPU性能越来越强、4插槽MP系统的内存已经可以支持到1~2TB。那么,IBM DS8000系列将来还有必要继续使用自己的Power处理器吗?
Vincent Hsu:存储器不光是一个性能的问题,特别是高端存储最重要的关键就是数据完整性。所以事实上我们有很多和Power整合的技术,我想将来(IBM)高端产品还是会用Power。具体到x86的性能现在也比较强,但是对数据的可靠性和一致性来讲,Power在这方面还是有比较多的优点。
将来你会看到不一样的地方,DS8000系列中会有Scale-out和Scale-up的设计。现在DS8800和DS8300就有很大的不同,DS8800的每一个矩阵节点(I/O扩展柜)Adapter和Power之间都是PCIe点对点的连接。
IBM DS8000(DS8700/8800)系列架构图
点评:DS8700、DS8800使用的CPU分别为4.7GHz的P6 570和5.0GHz的P6+ 570,前者的后端驱动器连接为2Gb/s FC-AL(光纤通道仲裁环路),而后者通过交换式的8Gb/s FC-AL连接到支持2.5英寸6Gb/s SAS驱动器的扩展柜。
除了这些,IBM DS8700和8800在系统I/O架构上的设计基本相同。两台Power 6服务器中各有两个CPU插槽(支持单核或双核处理器),它们通过P5ioc2芯片转接出的PCIe Cable分别连接到8个I/O扩展柜。而两台P6服务器之间的通信则由专用的RIO-G(remote I/O)环路来实现,一种高性能、带有自我恢复功能的内部连接技术。
ZDNet:DS8800在DS8700基础上将驱动器换成2.5英寸的SAS驱动器。
Vincent Hsu:从硬件上来讲是这样。另外在散热风道设计的排风方向上一致了,都是前面吸入冷空气,后面排出热空气。符合很多数据中心一条过道“热”、一条过道“冷”的设计。在能耗方面,DS8800相对于DS8700,同样盘数的情况下可以节能30%。
与NetApp竞/合关系、高价值V7000将集成压缩
ZDNet:在IDC和Gartner 2011Q1全球外部磁盘存储系统报告中,NetApp所占的份额已经超过了IBM。如今NetApp又收购了LSI Engenio,并期待未来这部分业务能在渠道中带来增长。请问IBM和Engenio在中低端磁盘存储DS3000、DS4000/5000系列上的合作,推出新一代产品时还会继续吗?
Vincent Hsu:我们和NetApp之间是一种竞争/合作的关系,在新一代的DS3000/5000系列产品上仍然会保持合作。
ZDNet:下一代的DS5000定位还是会低于Storwize V7000吧?
Vincent Hsu:V7000是一款High Value(高价值)的存储系统,它里面不但有SVC的功能,我们很快就会加入(实时)压缩功能。还有高级远程复制和FlashCopy这些都是企业级的特性,DS4000和5000是没有的。
如上 图,IBM Real-time Compression(实时压缩)Appliance STN6500产品相当于文件存储(IBM N3300,OEM自NetApp的统一存储/NAS)前端的一个网关设备,在缓存服务器的基础上提供压缩功能。当Storwize V7000一年前发布的时候,我们使用了“远离数据压缩而带有SVC血统?”的文章标题。这是因为IBM当时刚收购了专攻主存储实时数据压缩的Storwize公司,并将其归为IBM实时压缩(Real-time Compression)产品线,而V7000却不带有压缩技术。
在后来的“IBM Storwize V7000详解:IIS西安大会现场观察”一文中,IBM曾对记者表示V7000未来可能会加入实时压缩功能。目前的V7000是一款SAN块存储设备,至于将要加入的压缩功能是基于块还是文件层面,我们暂时不能确定。不过,联想到戴尔计划在文件系统层面(EqualLogic FS7500和PowerVault NX3500 NAS网关)加入Ocarina全局重复数据删除,IBM有可能也是将文件系统和主存储压缩集成在一个设备中。那么无论该设备是否与现有的V7000硬件做进一步的集成,都应可归类到今年流行的“统一存储”中来。
DS4000和5000的发展主要是在性能方面,性能/价格比。
IBM定位是在高增值的部分,比如说当初我们的PC业务就不做了(卖给联想)。IBM关注的不是我们卖了多少个硬盘驱动器,而是(存储系统)上面的附加值有所少。
ZDNet:我们曾经认为Storwize V7000可能会推出一个低端一些的版本?比如EMC的VNXe还有戴尔最近推出的EqualLogic PS4100在软件功能上与定位更高产品是比较统一的,也许会有些减少和限制,但现在很多中低端存储都开始支持像Thin Provisioning(自动精简配置)这样的技术。而IBM目前和Engenio(NetApp)合作的产品是否有一些欠缺?
Vincent Hsu:我们在考虑这些事情,V7000使用来自SVC的软件,具有很好的适应性。如果推出低端的型号,怎样保持和现有产品之间的定位?但是技术上是绝对没有问题的。
补充:今年第二季度的IDC、Gartner外部磁盘存储系统报告显示,由于NetApp环比基本没有增长,IBM已经重新回到排名第二的位置上。详见:“统一照耀存储:2011 Q2存储市场点评”。
GPFS整合Hadoop,IBM的大数据分析野心
ZDNet:目前谈到云存储和大数据,关注的焦点有对象(目标)存储设备和Hadoop(包括HDFS文件系统)两个方面:
关于对象存储,目前有EMC Atmos、NetApp收购的Bycast、HDS HCP(Hitachi Content Platform),可以用于云存储服务商的后端;另外Dell也推出DX针对医疗等行业归档应用。IBM在这方面有什么产品或者计划吗?
开源是Hadoop的一大优势,比如EMC收购的Greenplum就在与Hadoop结合,NetApp也在研究相关方案。IBM对Hadoop持何种态度?Netezza可能会和Hadoop产生某种联系吗?
Vincent Hsu:我们现在正在做对象存储的研发,以后你会看到在我们的SONAS平台上会有对象存储的这种技术出来。
ZDNet:也就是说在现有SONAS基础上增加元数据服务器这种类似的形式?
Vincent Hsu:对,没错。SONAS将来会和IBM其它的存储设备做进一步的整合。
Hadoop是一个大的趋势,非常适合做大数据分析的。IBM有一个很有亮点的技术叫做GPFS(通用并行文件系统),我们正在做GPFS和Hadoop的整合,将来你会看到IBM有针对Hadoop优化环境的(存储/设备)来运行相应的工作负载。
今年的 SNW2011大会上,在SNIA(全球网络存储工业协会)的一个演讲中,我们看到IBM GPFS可以替代HDFS作为Hadoop架构的底层文件系统/数据存储。而在上面的应用开发层,商业方案/接口(Commercial Project / Interface,相对于Hadoop开源方案而言)中第一个列出的就是IBM Bigsheets(大数据表)。
ZDNet:我记得用Hadoop自己的HDFS文件系统,存储成本应该比较低。那我们如果用GPFS,成本上是否会不占优势?
Vincent Hsu:Hadoop本身并没有特别的技术让(存储)成本降低。它主要是能够做DAS直连存储,(位于各个节点上的)硬盘是分布式的,所以数据会拷贝3-4份进行保护。Hadoop不需要高端的产品,不用共享存储,而是用分布式存储。所以它的成本相比共享存储(比如DS8000)要低。
我认为不会因为GPFS的关系而让(Hadoop)价格变高。现在市面上我们看到GPFS的可扩展性上还是最好的。把二者的优点结合起来,在基础上还是用直连的方式。
GPFS和SONAS在有些观念上是不一样的,SONAS虽然也是Scale-out,但它所有的存储还是以共享式的存储为主;而Hadoop(也包括HDFS)本身是分开的。我们现在让GPFS也能处理这些分散的、分布式的数据存储,与SONAS使用同样的技术,但支持的工作负载和架构是完全不一样的。
IBM SONAS集群NAS系统组成结构示意图。它的接口节点(Interface Node)和存储节点(Storage Node)之间通过交换式的Infiniband数据网络来连接。因此对于多个接口节点来说,后端的存储节点(包括其连接的存储控制器和磁盘)就是共享式 的,任何一个节点的故障都是可以实现容错的。
点评:GPFS与Hadoop的结合是一种分布式文件系统的形式,专门针对大数据分析的应用;而作为集群NAS产品的IBM SONAS则具备更多的适应性,主要面向高性能计算、海量媒体(音/视频)数据的存储。
Vincent Hsu:IBM在过去这5年收购了一些做分析工作负载的软件(包括Netezza?笔者注),现在我们正在做分析软件和Hadoop环境的结合。
IBM结合应用的服务器SSD缓存方案
ZDNet:目前以Fusion-io为代表的PCIe SSD厂商,纷纷将精力投入在配合后端磁盘存储的Cache软件方案上,类似的还有STEC和Marvell等。使用服务器上的SSD作为大容量磁盘阵列的缓存,能够提高性能、改善延迟,降低对外部共享存储系统(SAN)的IOPS性能要求,从而提高性价比。EMC宣布的“Project Lightning”(闪电计划)、NetApp Mercury也属于类似的形式,IBM怎样看来这些技术对未来存储市场的影响?有什么相关产品计划吗?
Vincent Hsu:这个应该按照2方面来讲。第一、作为缓存的SSD如果需要高端存储的技术,比如说远程镜像、FlashCopy快照的这种能力,目前服务器上的DAS还没有这样的技术。
ZDNet:如果只是用于读缓存,也就是说数据写入策略为write through的话,应该不影响复制和镜像吧?
Vincent Hsu:你说的没有错。IBM现在已经有这样的产品了,叫做ISAS(IBM Smart Analytics System,IBM智能分析系统),它不属于外部存储产品,是软件部门的一个解决方案。也是SSD在服务器上做缓存,有只读(Read-only)和临时数据(temp data,包括写缓存)2种方式,后端是共享存储。有点像EMC的Project Lightning,但我们已经推出正式的产品了。
IBM Smart Analytics System 5600的solid-state storage选项整合了Fusion-io ioDrive Duo,提供在PCI Express扩展卡上的固态存储。
刚才讲的另一个方面,就是SSD的闪存介质在性能上还不完全成熟,3、5年或者10年以后也许就会成熟。
ZDNet:我看到EMC的Project Lightning宣称具备分布式缓存的技术,也就是多台服务器后端可以同时连接一台共享存储。IBM的情况如何?
Vincent Hsu:(ISAS)当然是多个节点的(SSD缓存)。目前还只有Read-only,但下一步我们正在研发DAS的clustering(集群),把它们的数据存储(捆绑)在一起,这样写入数据(temp data)也是可以的。
ZDNet:就像有的厂商方案中2台服务器上的闪存卡保持类似镜像的关系?
Vincent Hsu:是的。
ZDNet:IBM这些技术暂时还没有和外部存储来做结合?
Vincent Hsu:目前正在做这方面的事情。因为IBM现在有Easy Tier(自动分层存储技术)将冷数据和热数据分开放在不同层级存储里的功能,(服务器上的SSD缓存)对我们来说只是另外一种层级的存储而已。
2013年支持FCoE,先低调出货?
ZDNet:EMC VMAX、HDS VSP还有NetApp等公司的存储系统陆续添加了对FCoE的支持,IBM已经开始在DS3500、Storwize V7000这些中低端产品中支持10Gb/s iSCSI,而对FCoE的态度似乎比较保守。请问IBM何时准备支持FCoE?
Vincent Hsu:(FCoE)我们在高端存储上大概2013年就会有了。现在一般还是支持Fiber Channel,光纤通道今年的速度是8Gb/s,明年就会到16Gb/s FC。基本上它们比以太网还是要快一些。
上图我们以双端口的Brocade 1860 Fabric适配器为例,其中每个端口都可以根据需要作为16Gb/s光纤通道或者支持FCoE 的10Gb以太网来使用。据了解Emulex和QLogic的16Gb/s FC控制器也都采取了类似的设计。而在交换机方面,思科新一代的Nexus 5548UP、Nexus 5596UP交换机的所有端口都具备统一端口(UP)功 能,用户能够指定任何端口成为千兆以太网、万兆以太网、光纤通道(2/4/8Gbps)或以太网光纤通道。相比之下博科的交换机则没有这么“激进”,显然 是不希望收购自Foundry的以太网产品影响到自己优势的FC业务。LAN和SAN融合的统一网络何时才能大范围普及呢?
其实目前FCoE具体的案例很少,我们在DS8000和XIV上很少遇到有这种需求。
补充:根据来自IBM友商的信息,IBM已经出货过带有FCoE主机接口的存储设备。目前端到端的FCoE应用环境应该还没有到大规模应用的时候,目前惠普和戴尔等也尚未正式发布相关产品,但不排除会为个别用户做定制的存储。
XIV Gen3分阶段SSD读-写缓存、4TB Ready
ZDNet:IBM宣称第三代XIV Gen3的吞吐量提高了4倍,响应时间缩短了3倍,能够在单一系统上承载更多的应用。不过我们没有看到公布的具体性能数字或者案例,我想这方面应该是用户比较关心的,您能否介绍一下?
Vincent Hsu:我们正在做SPC-1的Benchmark,过一阵子就会公布测试结果。
IBM XIV Storage System高性能SSD caching示意图
ZDNet:IBM计划在XIV上加入SSD缓存支 持,每个数据模块512GB / 整体7.5TB,IBM表示能够削减随机读取I/O延迟高达90%。我们认为大容量的SSD就是为了提高XIV随机读访问的缓存命中率,不过还有来自 IBM的信息:“对随机读写的性能将有大幅提升”。请问SSD在XIV上只是用于读缓存?还是读/写缓存?
Vincent Hsu:SSD在第一阶段会做读缓存;第二阶段,大约6个月之后会做读/写缓存。
ZDNet:有的竞争对手说,XIV的延迟要比传统双控制器的磁盘阵列要高。您怎么看这个情况?
Vincent Hsu:我不太同意这个想法。XIV的架构有接口模块(Interface Module)和数据模块(Data Module)2个层,第一个层从服务器进来的I/O,它会计算一下数据是在哪一个模块上。如果在这个“数据模块”的缓存没有命中的话,就会访问里面的硬盘。我觉得在这方面和其他的存储没有什么大的差别。
第二代IBM XIV Storage System架构图,XIV Gen3将内部节点间互连改为20Gb/s InfiniBand。另外,XIV的缓存和硬盘分布在每一个接口模块和数据模块上。
InfiniBand的延时和硬盘根本不在一个数量级上,以前的以太网速度确实要慢一些,而IB本身就是一种低延迟的网络技术(还有高带宽,所以比较广泛的应用在对性能要求苛刻的HPC领域,笔者注)。
补充:XIV Gen3将所有节点统称为数据模块,但实际上最多仍然有6个兼具主机访问和数据存储的功能。
ZDNet:XIV Gen3每个数据模块包含24GB DRAM缓存,第二代XIV有8GB和16GB两种配置(分别对应1TB/2TB硬盘驱动器),那么XIV Gen3是否已经预留了对3TB驱动器的支持?只等通过测试加入到兼容列表中?
Vincent Hsu:硬件上已经可以支持3TB和4TB了。
定位决定XIV多机架、未来高密度盘柜?
ZDNet:有消息说第三代XIV下一步将增加到30个数据模块,同时升级InfiniBand到QDR、40Gb/s,再次升级模块处理器至Sandy Bridge。您同意这样的观点吗?
Vincent Hsu:你讲的这些都是很正确的。
ZDNet:XIV什么时候会升级到多个机架?(与上一个问题相关)在跨机架互连的复杂性方面有什么难度吗?
Vincent Hsu:事实上我们正在研发多机架的技术,在实验室里可以把最多4个XIV机架连接为一个系统的。
ZDNet:这样一共就是60个数据模块了吧?
Vincent Hsu:对。将数据分布在所有的模块上,复杂性并不是很高。
ZDNet:在同样配置180个7200rpm SATA/SAS驱动器的情况下,XIV依靠分布式缓存能够实现其它产品无法达到的IOPS性能,不过180个2TB硬盘的最大可用容量只有161TB。通常高端存储系统应该支持更多的驱动器和容量,具体到XIV除了增加横向扩展节点的数量,还可以采用Scale-out + Scale-up的组合,即在每个控制器节点(数据模块)后端连接JBOD或者使用高密度盘柜。XIV会采用哪一种?
IBM OEM自NetApp E2600-60的System Storage DCS3700存储系统,专门针对高性能计算和流媒体环境的应用需求。总共60个驱动器安装在5个可以从前面装载的12硬盘位“抽屉”中,基于x86架构的存储系统也可以采用类似的高密度设计,比如NetApp E5400。
Vincent Hsu:因为IBM的产品很多,如果需要很高端的、扩容的存储,我们有DS8000那样可以支持超过1500~1600个驱动器。针对VMware ESX的应用,大部分的存储就是(XIV的)这个容量范围。虽然实验室里已经研发出可以做Multi-Rack(多机架),但我们在考虑市场定位怎样才能让产品不要有太高的重复性。
ZDNet:XIV将来仍然会只提供一种7,200rpm转速的硬盘吗?
Vincent Hsu:这个就难说了,因为现在的确有用户提出需求,我们在考虑做15,000转的驱动器支持。但是我觉得将来的走向还是使用SSD + Nearline(近线)的组合比较理想。市场的大趋势还是在Hybird(混合存储)——SSD加上转速比较低的磁盘。
高速的传统硬盘应该会越来越少。通过IBM的(自动分层存储/缓存)技术,能够分别发挥出SSD的高速度和近线驱动器大容量的优势。
ZDNet:您觉得每个数据模块只有15块盘,我们在硬盘的数量上和竞争对手相比并不多,而对应的CPU和内存资源(对应服务器的台数)却不少。那么性价比方面,XIV成本上是不是比他们只挂JBOD扩展的方式要高一些呢?
Vincent Hsu:由于控制器CPU和缓存能力的提高,速度变快了,我们也在研究将来XIV做高密度的机箱(驱动器柜),使每一个模块内的磁盘数量增加。但这不是今年或者明年的事情,属于未来的发展方向。
DS3500:192个驱动器不是为SSD准备的
ZDNet:DS3500支持的驱动器数量增加到192个,如果是3.5英寸驱动器就需要级联15个SAS JBOD扩展柜,您认为可能带来的延迟增加,会对性能有不利影响吗?
Vincent Hsu:我觉得现在这种(DS3500的产品),只要不加固态盘的话,延迟都是差不多的。因为机械硬盘的速度(平均I/O访问时间,笔者注)太慢,特别是我知道DS3500用的是基于硬件的RAID,相对于CPU和内存而言,理论上硬盘(的延迟)会差太多。如果数据非常随机的话,缓存的命中率就会低,一旦访问硬磁盘速度就会慢下来。
首先它的吞吐量是一样的,本身的瓶颈不在于驱动器,而是由控制器决定。
NetApp网站上的E系列产品线规格对比(部分),其中E2600(原LSI Engenio 2600)和 E7900分别是IBM DS3500和DS5300的原形产品。我们看到E2600使用SSD的持续IOPS性能由硬盘时的40,000提高到70,000,不过要是用户在2U 24个2.5英寸驱动器位的机箱中装满(或者只装一半)SSD的话,这个数字早就成为瓶颈了吧?
ZDNet:也就是说如果不用SSD的话,这方面不会有多大的影响?
Vincent Hsu:我的经验是这样的。
ZDNet:其实这个产品是支持SSD的,但是我估计实际使用的人不会在里面装很多个SSD,因为DS3500定位的关系。
Vincent Hsu:一般来讲,用SSD的人太少了,因为1、2个SSD的价格可能就比DS3500(控制器机箱)要高了。
V7000集群分2步走,性能随硬件更新提升
ZDNet:Storwize V7000今年增加了双系统集群功能。按照我的理解,这个与4节点/2个高可用对的SVC(SAN Volume Controller)集群原理差不多吧?
Vincent Hsu:没错,V7000的缓存数据拷贝机制和SVC是一模一样的。
ZDNet:EMC在宣传VPLEX存储虚拟化设备时强调了分布式缓存一致性(Distributed Cache Coherency)的技术,而IBM没有过多的去谈(SVC和V7000)这个方面。在具体实现原理上是差不多的吧?
Vincent Hsu:是的。
ZDNet:SVC集群扩展的主要作用应该是针对本地/远程灾备的数据复制和镜像,当然也能够提升性能(比如4-6节点 + 后端DS8700)。那Storwize V7000的双节点集群功能,是能够组合到一起来使用(将全部容量整合到一个存储池),并为单一应用提供更高的IOPS/带宽性能?还是只对2个控制机柜进行统一管理呢?
Vincent Hsu:这个要分几步来讲。第一步是物理上两台叠在一起,变成4个节点(控制器),两台V7000之间的数据是无法互相访问的;下一步我们要做的是,如果从3/4控制器上访问1/2控制器(也就是另一台V7000)上的数据,后者会将数据通过(光纤通道)SAN网络传送过来,就像SVC那样。我不太清楚这个“第二步”的支持,是在今年底还是明年初。
也就是说第一步是先做到统一管理,第二步则可以通过SAN从一台V7000访问另一台上的数据。
两套Storwize V7000控制机柜组成的集群。目前实现的第一步是:在每个机箱中2个控制器组成的I/O Group基础上统一管理,MDisk在存储池中也是互相独立的。
ZDNet:那么所谓的性能和容量提升,仍然是指作为2套存储系统来使用的?
Vincent Hsu:但它们在管理上是一套的。比如你要做FlasyCopy的话,我们都知道在FlasyCopy里面有一个很重要的是(数据)一致性,虽然是2个不同的(V7000)机器,但可以做一致性的FlasyCopy。
ZDNet:您的意思是,我可以一同设置FlasyCopy的源和目标端,而不再需要单独去设置了?
Vincent Hsu:对。
ZDNet:V7000的两个控制器是不是Active/Active(双活动)的方式?因为我看到一些带宽测试的数据(SPC-2),好像双控制器的负载均衡并没有很好的发挥出来?
IBM Storwize V7000控制器结构图(详细分析见:“展望:x86 vs. RISC(PowerPC)之争”)
Vincent Hsu:V7000是采用Active/Active控制器设计的。它的顺序访问带宽在中端存储产品 中是非常具有竞争力的。我们将会继续改进V7000来提高它的性能。我们在V7000上利用了最新的处理器和内存技术,以及来自DS8000、XIV和 SVC的高级功能。你将会看到V7000在性能和功能性上的持续改进。
ZDNet:最后再透露一点,我们很快就将看到Storwize V7000的更新了,具体变化在本文中有提及。请大家期待CBSi企业解决方案中心的正式报道吧!
转载于:https://blog.51cto.com/ibmhome/684354