阿里云高性能计算在制造业的应用

阿里云高性能计算HPC(High Performance Computing)在制造领域用途非常广泛,随着技术的发展运算能力极大提高。目前高性能计算能力已经到了1ZFlops,或者100EFlops。本文介绍阿里云提供的HPC方案及相关产品解析。为了更好的满足客户的要求,阿里云做了很多的不同的选择提供支持。


演讲嘉宾简介:
胡鑫,阿里云制造行业总经理 

以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本次的分享主要围绕以下三个方面:

一、背景
二、HPC方案相关产品解析
三、EDA场景

一、背景
高性能计算HPC(High Performance Computing)在制造领域里面用途很广泛,包括航天航空,造船,电子,芯片,设计,生命科学等领域都有广泛应用。我们通过这种方式来提高计算能力,来实现生产方法、比如说现在的基因测序,比如说制药领域内新药的研制,或者说石油的勘探开发领域都会用到。所以说阿里云在这块领域投入了很多精力,包括研发和技术。
下图可以看到随着技术的发展,运算能力在不断的提高,这样的话可以将生产,以及研究的速度大大提升。大概十年前,计算能力到了10TF或者100TF。目前,实际上计算能力已经到了1ZF,或者100EF。这表明计算能力极大的提高,我们的生产,制造和设计大大的加速。比如新药的研制,通过高性能运算,通过仿真的技术,通过模拟的技术,已经大大提高了速度。另外医疗图像,天气预报场景中都会用到HPC。
12c245d98a5c87a07164877a54f8d0ac061ce775
首先,HPC肯定是为了解决客户的痛点。举个石油勘探领域的例子,它是属于周期性的行业,一个周期里面只有3到4个月可以在野外做勘探开发,勘探开发领域大量场景里面都会用到高性能运算。比如做地层的模拟,区块模拟出这个地方有多少储油量,油井怎么去定位。以前在大庆采油时,没有高性能运算如何采油,蹲在区块边拿一个石头一扔,就决定打一口井。在当时,打一口井如果用进口设备的话大概需要上千万,甚至上亿。但是井打出来没有油就会功亏一篑。随着技术的发展,有了相关软件,有了地震的技术,高性能运算可以把地层的模拟通过三维显示显示在墙面上。这时再找一位专家,通过经验画出哪一块的油层是可以钻井打出来。成功率从原来的20%提高到了60%,意味着至少有十口井里面有三口井是没有被浪费掉的,极大的提高了生产率。另外,比如说电子工业设计,电子线路设计领域内也有高性能计算实现。所以说,对高性能运算的需求是极大的,但是需要的投资也很高。通常我们会用到256节点设备的集群去算一个东西。周期性的工作,一年中可能只有半年的工作,另外半年是闲置的情况。所以如此大的投入对一些中型,中小型企业来说是很大一笔投资,而且硬件成本也会有折旧。导致很多企业对高性能计算变成了奢望。
基于这些点客户会有很多痛点,第一,是否多个客户可以同时用?石油勘探中就出现这种问题,不同的勘探涉及部门是不是可以同时共用集群?这样可以提供使用效率。第二,不同的应用是不是需要高主频?可能是内存密集型的应用,或者是CPU密集型的应用,网络密集型的应用,IO密集型的应用。第三,运维怎么做?还有说以太网不满足效率,是不是可以用IB做?等等不同的问题在企业的场景下会变得多种多样。HPC的云在若干年前就已经提出来了,所以说这就说明高性能计算存在的价值。大家还可以将HPC称为云超算或者超算云,这都没有问题,主要看它如何帮助用户解决痛点。
c9b339b16c55208b533983ddb9d87f6eeb42aab4

二、HPC方案相关产品解析
在制造业的场景下,大家可以看看都存什么问题。第一个就是流畅问题,流体力学里面的有限元分析。比如是中国的高铁,最早产自于长春客车厂,他们就会用到有限元的分析来设计制造客车。实际上,这就是一个很强大的应用场景。第二个,将物理模型按区域划分为MPI计算模块。比如说在石油勘探里面,分的很细,有做常规计算的,这可能是CPU密集型的应用;还有做叠前偏移,这可能是做内存的;另外还有一些叫RTM,这可能是做GPU密集型的。我们会通过API的方式调用这些计算模型。另外还有一些通过MPI的方式实现。所以在HPC场景或者制造场景里面,具体分为很多的应用。根据不同的场景,阿里会提供不同的HPC解决方案。
2f14c7667b0c9d59a1919e5d56bd9e8e1db9a523
在云上(Public Cloud),或者本地阿里云都会提供不同的解决方案。下图主要展示的是典型的HPC集群的架构组成,包括主节点+登陆节点,计算节点,集群网络,集群存储等。
60c5e4123b39fa96b681c636bf519ac30437f02a
首先,我们在底层会有很强大的支撑平台来做,在这个阶段我们会有我们飞天的一些操作系统,包括飞天的硬件。比如我们提供了裸金属的硬件(bare metal),相当于提供物理机来支持。第二,提供了IB,还有VPC以及以太网都可以支持。我们知道高性能计算前几年在IO上面一直有很大的瓶颈,我们在这一块提供了类似于NAS,Lustre,GFS,NFS这种文件系统。在软件这一块,超算&AI系统的软件架构提供支持。另外,应用性能特征要求,HPC,AI,Bigdata也会提供支持。还有我们的对外服务的框架也会支持。这里面我们提供了一些组件,大家可以开发自己的HPC,基于云的应用是可以发布出来。最后在云平台提供虚拟化2.0,自动运维和伸缩,EHOC PAAS AI Framework。
2dc5a529b924c6676c282e48062a6ef6f5b0e3bd

阿里云可以提供基于IaaS和PaaS的解决方案,以及客户的SaaS应用放在上面就可以提供服务(E-HPC),所以非常灵活。中国很多现在做芯片分装,芯片设计的可能做AI芯片的才刚刚up起来,其实是没有财力,或者说没有必要自己买一套HPC系统。那可以采用我们提供的HPC系统,把软件部署上去,在Cloud端按需分配。
第二个,我们这么多年遇到另外一个很头疼的问题其实是Licence的问题。一个公司在半年前买了A企业的Licence,过了半年换了另外一家B的Licence。以前这种浮动的调整Licence是不支持的,但是随着技术的发展,我们可以通过调度软件,Licence管理软件达到客户的要求。
E-HPC作为阿里云产品加家族新成员,从下图中可以看出,为计算服务,引擎,平台,服务,包括ET城市大脑,ET工业大脑,ET医疗大脑,包括FPGA镜像市场,云市场等提供服务。
1087982d84eb94e6fc87a6ede8ba81a948fcfc5a
原来传统自建HPC是从下往上都要建,那么使用阿里云提供的HPC系统客户只需要把自己的应用,SaaS部署在上面就可以了。比如自己的设计软件,Platform等部署在系统里就可以了。对比一下,如果自己要建一个HPC系统,财力足够的情况下,起码半年的时间。但如果在云上,只需要2-3个星期就ok。第二个,拥有成本其实会降低很多。中国有一家企业叫东方地震物理所,中石油旗下的。一年拥有HPC的电费大概有800到1000万。石油市场满荷的时候,需要800到1000万,石油价格很低的时候也得交800到1000万。所以云的优势在于,在这个市场内有一定广度之后,会把你的成本,费用,弹性都分销在里面了。
96488e97eec2c0b485ac45089bd6ee0711b144b8
E-HPC有很丰富的软件生态。高性能运算里面基础软件包括Cluster,Studio,浮点效应等。在实际应用场景里面就要看什么样的应用去配比什么样的HPC集群。你是内存密集型的应用,或者是CPU密集型的应用,网络密集型的应用,还是IO密集型的应用,对应的就有计算化学,气象预报,生物,材料,分子动力,人工智能等。
795d90b61f1402348b1fd4dff0c7e1f3d3a419f9
通过云端,通过console端可以提供很强大的管理集群,而且现在阿里云支持单一的集群到一万个节点。原来几年前,我们只能做单一集群处理一个任务,256是最大的,或者到500多。
b833a6100e2d64c0248a26f655578091d278db1f
另外,我们有可视化的工作编排和发布管理。你可以把你的应用发布,做一些展示,调度,包括用户的权限管理都可以做到。
c8fc14a9c4d8a6eaccac833bde6416c5e1bddf16
我们还可以做自动伸缩Autoscale,在本地无法做到,在云上可以做到。随着工作量的大小伸缩扩展,比如说需要200个,或者250个都可以做到。在微信的场景,大概可以知道在过年的时候发红包用,是它的峰值状态。但微博的场景下是无法知道哪段时间的峰值高,可能是在某个明显的绯闻新闻出来的时候。所以微博是阿里云很大的客户,我们可以支持它非计划性的做扩展,这是非常重要的。比如客户需要做ip封装,做很大的量,阿里云几分钟之内就可以帮助用户搞定,两个月之后就可以释放掉。当然还要注意Licence的问题,不可以违规。
93f58dd1521dfc211a7ba1a2922ff97242e00511
E-HPC推荐配置取决于客户的应用,比如CPU:MEM多少?当然阿里云会根据自己的经验和合作伙伴的经验告诉客户怎么去选择。包括网站上也会一些建议,通过问题帮助客户。有一些IT人员不太懂业务的场景,这样就可以省了很多精力。另外我们在虚拟化上也做了很多事情,如果客户对网络性能要求不高,就可以做网络虚拟化,这样节省网络带宽。另外如果对IO的要求不高,可以做存储虚拟化。如果对文件要求比较高的话,我们可以做IO的并行文件系统。为了更好的满足客户的要求,我们做了很多的不同的选择。现在我们基本上可以达到76.4TFlops。
488437d768b8adf350e2ae03d293c602035256d0
下图是我们刚刚发布的神龙服务器,在高性能集群里面提供了很重量级的应用。神龙可以做虚拟机的外表+物理机心脏。
4eeb985deb5174322023fb42044f9c4c941e8a48
另外我们还在和合作伙伴一起做测试,也是用的神龙。下图是神龙的的一些特点,可以完全满足HDC集群。响应云栖大会的号召,我们不用拿来的云,我们用自己的云。当然里面的一些先进的处理器还是用了国外的。
e7638d1d76f4f2d2a079bbcd118930c292f0766e

三、EDA场景
如果大家要做EDA设计时,无论在云上(公有云,专有云,私有云),还是在本地都是下图的场景。从客户端的数据传输上,我们提供了高速通道。我们提供了VPN连接保证数据的安全性。甚至提供了证书的验证,包括公钥,私钥可以放在自己手中,保证你的数据安全性。我们支持企业,科研用户,以及个人用户。
95fb8038fd853697e0edb50eb9e46dcd3200ea79
下图是HPC的IT架构,供大家参考。
1aac48db2ef4a74326c6e4e32a1fa051a3f93269
下图混合云的实例,在实际场景里面,阿里云可以提供混合云。一部分运算放在公有云,另外一部分的计算放在本地实现。阿里云不单单是公有云的提供商,而是一个全面解决方案的提供商。
af45786c464c8e18fcd7c95177031b65fa7bf1ea
我们提供EDA的研发环境,提供单元测试。
a390199511a1aa1a1a430605084e476c015659d9

本文由云栖志愿小组董黎明整理


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值