【​SC17观察】今年全球超级计算大会,最抢眼的是什么?


去年的盐湖城,今年的丹佛市,这两个全球超级计算大会(Supercomputing Conference,SC)的举办地有两点都很相似,都在中西部,也都很寒冷。

 

但在这个冬天,距离和天气,并没有阻挡住人们对于HPC的热情——今年的SC17大会吸引了334家厂商、117个国家和地区的超过10000人参会,创下历届大会之最。


被誉为计算机界“皇冠上的明珠”的HPC,在这个强调计算力的时代闪耀出了夺目的光彩。从传统的科学计算、新兴的互联网应用,到时下最为当红的人工智能,越来越多的应用场景开始积极拥抱HPC,将已经有数十年历史的HPC推向了盛世。


这届的SC17大会亮点颇多:“E级计算、人工智能、HPC云化”以及“生命、宇宙和计算”成为热门话题;各HPC厂商纷纷亮出家底,展现对HPC技术最新的探索和实践。


同样,目标将HPC“平民化”、推动HPC普及的戴尔自然不甘落后。在SC17,戴尔公布了一系列面向HPC的新品,并展示了HPC的完善产品堆栈,在SC17诸多参展商中成为了一道亮丽的“风景线”。


首发C4140,针对三大场景优化设计


戴尔在SC17上最抢眼的表现,莫过于发布了加速器优化的全新计算节点PowerEdge C4140,戴尔将这款产品称为“现代数据中心的基石”,并对其寄予厚望。 



在2005年以前,戴尔和很多HPC厂商的做法没太多不同,主要采用传统企业级服务器为客户打造HPC。但是,随着HPC系统规模不断扩大,云计算市场开始爆发,很多客户需要在数据中心部署数以千计甚至数以万计的服务器,更加强调服务器的密度和成本。


于是,去掉了一些不必要的企业级特性、具有更高密度的定制化服务器大受HPC和云计算客户青睐,戴尔也随需调整了产品布局。2005年,戴尔成立了数据中心解决方案部门(Data Center Solutions,DCS),开始打造专门面向HPC和云计算应用的C系列服务器。


2008年,C系列服务器正式成为戴尔PowerEdge服务器序列中的一员,并逐渐在HPC领域取得成功。2012年,戴尔基于PowerEdge C系列服务器为德克萨斯高级计算中心(TACC)打造了“Stampede”超级计算机,峰值达到8.5 PetaFLOPS,在当年的TOP500榜单中位列第七。


经过十余年的发展,新推出的PowerEdge C4140已经是戴尔为HPC解决方案所打造的第十代服务器产品,这款产品凝聚了戴尔在HPC领域的技术积累,并将最新的异构计算技术融入其中。


加速器优化的全新计算节点PowerEdge C4140


来看看具体的情况:戴尔PowerEdge C4140采用1U设计,最大支持两颗英特尔至强可扩展处理器,最高1.5TB内存。C4140最大亮点是在1U空间内最大可以支持4颗NVIDIA GPU,用户可选Pascal架构的P100 GPU或者采用最新Volta架构的V100 GPU。



相比上一代的C4130,C4140除了传统的PCIe联接之外,还新增了Nvlink的联接方式(针对V100),这是一个显著的升级,Nvlink 能够让CPU-GPU 和 GPU-GPU 之间实现超高速的数据传输,速度是传统PCIe3.0的5到12倍。


戴尔是NVIDIA第一级的OEM厂商,自然能够率先将Nvlink技术用于产品,从C4140的目标应用领域,我们不难理解戴尔的用意——C4140有三大应用领域:机器学习和深度学习;科学计算,包括科研、生命科学等;要求低延迟、高性能的场景,如金融分析等。在这些场景中,采用Nvlink技术相比传统的PCIe能够更加充分的发挥异构计算的效率。


测试数据显示,戴尔PowerEdge C4140在深度学习应用中最大可实现500 TFLOPS的计算峰值,堪称一款“小钢炮”。在分子动力学场景中,1台C4140相当于19台纯CPU的服务器,成本节省12倍;在金融服务场景中,1台C4140相当于8台纯CPU服务器,成本节省5倍。


C4140的其他一些设计也充分体现了这款服务器“应用优化”的理念:具有两个PCIe x16插槽,支持Mellanox最新的200Gb/s HDR InfiniBand或者Intel Omnipath 25GbE高速网络;可选2KW或者2.4KW冗余电源,是当前服务器中最高规格的电源设计,充分保证异构计算的能耗需求。


C4140在机箱结构设计上还充分考虑了重负载、高密度应用场景对散热的要求。C4140的四颗GPU全部放在机箱的正前部,更加有利于GPU的散热(通常冷风是从机箱前部穿过机箱)。而大多数异构计算服务器的GPU是放在机箱后面,这样会导致热量集中于后部,不利于散热。此外,C4140配备了戴尔iDRAC9管理模块以及戴尔14G服务器上有关系统管理、安全等方面的特性。



据介绍,戴尔PowerEdge C4140提供了9种配置选择,将于今年12月开始在全球范围内供货。 


新品频发,戴尔完善HPC产品堆栈 


除了新的异构计算服务器PowerEdge C4140,戴尔还在SC17上发布了三款应用就绪的HPC一体机系统:基于英特尔架构的深度学习就绪系统、基于NVIDIA GPU架构的深度学习就绪系统以及基于Hadoop架构的机器学习就绪系统。


在HPC领域,戴尔一直追求的是“工作负载优化”,简化客户在基础架构层面的工作。此前,戴尔曾经针对科研、制造、基因工程等应用场景提供了HPC一体机,针对不同应用类型专门设计了不同的资源配比,并经过ISV验证,以实现更好的性能优化和可靠性。


如今,人工智能大热,机器学习、深度学习更是其中最为热门的领域,HPC则是这两个领域强大的计算力支撑。戴尔专门面向机器学习/深度学习发布了三款不同架构的HPC一体机,满足了企业不同的技术路径,体现了戴尔对于市场和客户需求的深刻理解。此外,在SC17大会展区,戴尔还展示了DELL EMC Isilon高性能存储、N4248网络交换机等新产品。

 

可以说,从工作站、服务器、存储、网络、管理、服务到云计算,戴尔已经具备完善的HPC产品堆栈。


例如,在服务器方面,戴尔具有HPC优化设计的C6420、C6320p、C4140,以及适合HPC环境的通用服务器R640、R440、R740、R740xd、T640以及刀片产品M640等。据悉,戴尔未来可能还会引入AMD芯片服务器,覆盖更加广泛的客户需求。


PowerEdge C6420

PowerEdge C6320p

戴尔HPC服务器产品组合


在存储方面,戴尔原有SC和PS产品线,并购EMC之后又融合了EMC Isilon高性能存储;在高性能网络方面,通过和Mellanox、Intel合作,戴尔网络产品线引入了Mellanox EDR、HDR InfiniBand技术以及为可扩展HPC系统设计的Intel Omni-Path架构。


在管理方面,戴尔具有Bright Cluster Manager集群管理软件以及OpenHPC集群管理软件;在服务方面,戴尔能够提供部署、支持、金融服务、远程管理、HPCaaS等多种服务;在计算方面,戴尔可提供微软Cycle Computing软件和服务,用于高性能计算工作负载下的云编排和管理,帮助各种规模客户满足高性能计算需求。


戴尔HPC 高性能计算系统产品组合

 

还有上文所提到的多个应用就绪的HPC一体机系统。戴尔不仅拥有丰富的针对HPC应用的产品序列,还拥有大量制造、教育、生命科学等领域的行业专家,所以戴尔能够将多年来在HPC领域积累的技术、产品和行业经验相融合,打造出面向不同场景的HPC一体机,进一步降低了HPC的应用门槛,同时让HPC能够更加贴合行业场景的需求。

 

推动HPC“民众化”,为人工智能“谋篇布局” 


在HPC领域,戴尔的目标并不是打榜和做“大机器”,而是更希望贴近用户实际需求,设计和部署成本优化的系统,最大化IT投资。对于戴尔来说,“曲高和寡”不如更接地气,排名不重要,让更多的客户能用上才是王道。目前,戴尔在HPC领域实际已经收获了很多成果。



在中国,戴尔和中国科学院自动化研究所合作共同建设基于深度学习的服务平台—“诸葛• 深知”。“诸葛·深知”不仅提供通用的服务平台,而且还能针对不同行业用户的需求,提供定制化的服务,提供定制化的深度学习算法模型训练及相关技术咨询培训,以加速应用落地。该服务平台的HPC硬件平台由戴尔提供。


戴尔为海尔IT技术支撑平台提供和部署了网络系统、高性能并行存储系统、CPU 计算集群、GPU计算集群、大内存计算集群,并通过戴尔的集群管理和资源管理软件,实现了高性能计算平台、大数据平台和云平台的建立。助力海尔实现了语音模型训练、语义算法优化、图像模型训练、知识图谱构建、用户画像以及生产计算等多个系统的应用。


戴尔为清华大学蛋白质技术中心构建了高性能集群HPC平台,承载和支撑大规模生物学、医学领域的研究计算任务,充分利用HPC平台海量数据处理和并行计算能力,为生物大数据的高效处理和分析提供创新机制,满足生命科学、生物学、医学和其他交叉科学不断提出的新要求和挑战。


通过安装戴尔HPC存储系统解决方案,成功解决了上海交大HPC系统的痛点,不仅成功应对了用户日益增长的存储要求,提升了存储系统性能的稳定性,并提供了轻松、高效、安全的管理环境,更有助于提升上海交大科研和教学的竞争力。


在全球,戴尔帮助多所大学建设了超级计算机中心,包括位于加州大学圣地亚哥分校的圣地亚哥超级计算机中心(SDSC)、位于德州大学奥斯汀分校的德州先进计算中心等。戴尔还帮助佛罗里达大学的HiPerGator超级计算机进行了扩展,为南非开普敦的高性能计算中心(CHPC)升级系统,解决了空间、能耗、散热和预算的难题。


由此可见,戴尔一直努力实现HPC的“民众化”,并本着开放、务实、应用就绪的原则,降低HPC的使用门槛。更为重要的是,在人工智能成为这个时代的新风口之际,已经走在技术前沿的戴尔更希望通过推动HPC和人工智能的融合,让各行各业,都能感受到人工智能带来的价值,用人工智能为全球产业升级发展赋予更新的力量。





申耀的科技观察(微信号:shenyao),由非著名科技媒体人申耀创办、10万公里公路自驾经验老斯基,在各大自媒体平台拥有专栏,致力于科技行业的观察和思考,在这里读懂科技行业,知趋势,赢未来!


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值