美国重返全球超算“霸主” 中国超算E级竞赛落后?四个事实告诉你真相

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Z1Y492Vn3ZYD9et3B06/article/details/80768054

640?wx_fmt=jpeg


--------

作者:刘学习


近日,美国能源部田纳西州橡树岭国家实验室 (Oak Ridge National Lab)推出了一台名为“Summit”的超级计算机,其计算能力已经超过了目前排名第一的中国神威·太湖之光超级计算机。


根据官方介绍,Summit的峰值计算能力可以达到每秒20亿亿次,比神威·太湖之光要快60%,同时也是美国此前的超级计算机明星“Titan”计算能力的 8 倍。


这表明,自2013年以来就始终占据着世界超级计算机排名第一位置的中国,这一次被美国逆袭,美国再次重回巅峰。同时,E级计算也就是百亿亿次超级计算机又成为了超算领域的眼前目标。


广大的可爱的网友们可能不淡定了,这是否预示着中国超算在E级计算竞赛中败北,或者美国超算的复兴呢?


记者想告诉大家的就是四个事实,也就是四句话,您就能明白超级计算机全球竞争的大格局。


事实一:美国超级计算机长期占据着世界第一的位置


在超级计算机的发展历史中,美国一直独占鳌头,这不容否认。但是在这次成果出来之前的几年里,中国已经成功实现追赶并超越美国。我国的神威·太湖之光以93 PFLOP的极限性能(1 PFLOP 等于每秒一千万亿次的浮点运算,也就是9.3亿亿次每秒),相当于美国能源部下属橡树岭国家实验室开发的Titan(18 PFLOP)超级计算机的5倍。


640?wx_fmt=jpeg

Summit 不但强大而且挺酷


在超级计算机榜单上,美国拥有的机器数量大部分时间超过了中国。根据全球超算大会(ISC)2017 年“超级计算机 500 强”榜单,中国不但凭借太湖·神威之光、天河二号继续霸占前两名,而且以202台系统的总量遥遥领先美国的143台,这是该榜单成立以来中国占比最高的一次,同时也是美国占比最低的一次。而就在仅仅半年前,中国还只有160台,比美国少9台。六个月的时间里,中国超算猛增了26%,美国则少了15%。除此之外,美国在超级计算机排行榜TOP500中的总数量一直居于全球首位。


事实二:中国在超级计算机上树立了自己独特优势


640?wx_fmt=jpeg

神威太湖之光更淡定


以前说起超级计算机,人们可能会担心美国对中国超级计算机CPU等禁运,会影响中国超级计算机的发展。不过,现在虽然美国的CPU等技术仍然会影响中国超级计算机的发展,但是神威在自主可控方面的发展取得巨大进展,包括:


全部使用申威160芯片,搭载神威睿思操作系统,实现软件和硬件全部国产化。


稳定性较好,测试Linpack 全过程9个多小时无故障。


液冷系统高效可靠,冷却剂在冷板内部的封闭水循环带走主板热量,环保且无噪音。


高密度封装,一个机仓可装入1024个CPU。


整机功耗低,性能功耗比高。神威蓝光超算性能功耗比超过741MFlops/W,天河1号超算性能功耗比431.7 MFlops/ W。


整机效率高。神威蓝光超算LINPACK在不同规模下的效率:单处理器核80.28%,单CPU 75.20%,单机舱75.07%,整机74.37%。神威蓝光超算整机效率与曾经是美国最快的计算机美洲虎超级计算机效率相当。


说得清楚点,就是完全自主可控,且性能高,功耗低,货真价实。


事实三:未来超算的性能竞争将集中到每秒百亿亿次


Summit 的出现将超级计算机的峰值运算速度提高到每秒百亿亿次。全球超级计算机的竞赛提前几年进入E级竞赛阶段,美国和中国领先。美国正在研究开发几台这样的机器,每台机器的成本可能在4亿美元至6亿美元之间,并且得到了英伟达、IBM 以及英特尔等公司的合作帮助。美国的目标是在2021年和2023年之间完成使至少一台“百亿亿级”计算机。


按照中国的时间表,中国最早有望在2020年发布E级超算。目前中国同时启动了三大E级超算原型系统的研发,分别是国防科大和天津超算中心的“天河三号”、中科曙光的E级超算,以及江南所和济南超算中心的“神威”E级超算。

国家超算无锡中心主任杨广文也曾透露,“神威·太湖之光”新一代百亿亿次超算的研制已经列入国家“十三五”规划,并以“神威”“曙光”“天河”等系列超级计算机为龙头开展研制,有望在2020年左右推出首台国产百亿亿级次超级计算机。


“天河一号”研发部部长孟祥飞在十九大“党代表通道”上透露,他们正在进行百亿亿次超级计算机的研发,预计2020年研制成功。曙光的Torus技术可以说是为E级计算而生的。Torus网络架构本身的密度高扩展性好,横向扩展的成本增长呈直线型,更像是横向扩展的一个状态,更适合在大规模节点的范围中使用。


事实四:人工智能应用的超级计算机应该成为竞争焦点


橡树岭的研究小组说,Summit是第一台既支持传统计算也支持运行人工智能应用的超级计算机,比如机器学习和神经网络等运行都可以在其上实现。Summit基于 IBM在2017年12月于北京所发表的最新一代 Power PC 9216 架构,与多达 27648 个 NVIDIA GPU 组合而成,目的在于解决目前机器学习与神经网络等 AI 应用的性能瓶颈。


640?wx_fmt=jpeg


高性能计算机就是为人工智能而生的。当年的超级电脑“深蓝”在国际象棋上打败卡斯特洛夫。十年后,人工智能Alpha GO才在围棋上击败了李世石。超级计算机与AI结合的前景被业界普遍看好,确实非常值得期待。


中国在AI芯片、AI算法、大数据积累、算力等方面都具有发展潜力,完全可以在AI应用的超算竞争中,达成科技与商业的完美结合的大目标。


作者简介


刘学习

前15年,专注于服务器、存储以及云计算

后5年,爱上基础软件、管理软件,以及国产化系统

冀望与企业一起成长,与产业一起发展!


微信:Fiyinghare

邮箱:lxx@soft6.com


640?wx_fmt=jpeg

展开阅读全文

华为助力某大学超算云计算中心解决方案  

01-29

华为助力某大学超算云计算中心解决方案  rn 一、客户背景 rn  某大学云计算产业园依托学校科研力量,整合校内学科资源,建设技术开发平台,引导科研资源向大数据应用方向倾斜,云计算产业园运营的业务范围覆盖云计算、超级计算、空间信息、移动互联网等领域,将为政府部门及企业用户提供广泛的数据与基础设施服务。 rn  其中,云计算中心依托高速互联网接入和大规模网络互联,采用最新的云计算技术,依托超级计算中心的强大基础设施,为云应用的发布、托管和云服务支撑提供前后端一体化的支持,通过对计算机硬件资源的虚拟化和灵活调度,面向企事业单位提供弹性云计算服务,根据不同用户的个性化需求定制解决方案及服务模式。超级计算中心的计算能力高达1170万亿次/秒,是某地区最大的超算中心,在全国区域超算中心中仅次于上海超算中心,能够满足海量数据处理需求,为科研和高端装备制造、生物制药、动漫与影视渲染、高分辨率遥感应用等用户提供快捷、优质的计算服务。空间信息中心将为现代农业、防灾减灾、资源环境、公共安全、城市精细化管理等关系国计民生的领域提供数据服务、数据加工、咨询报告以及解决方案等。移动互联网借助一站式运营支撑系统,使开发者与行业用户得到移动应用的运营支持,实现电子商务的精准营销以及移动政务、商务信息的聚合、分析和服务等目标。与此同时,云计算产业园还具备国家级数据基础设施,提供高强度的网络安全环境,安全设施符合国家信息安全等级保护五级标准,能够提供专业的网络安全、信息安全与数据安全保障体系,并提供全方位的基础设施服务,可以实现主机托管、主机租赁以及带宽租赁服务。 rn  二、解决方案 rn  方案按照“一个云数据中心,多个业务集群资源复用”的架构原则建设,统一设计基础设施资源,数据中心按照绿色模块化架构设计。项目一期建设拟先建设统一的云计算平台以及数据中心网络、存储等部分。 rn  总体方案的核心设计思路为:“融合”、“分层”、“分区”: rn  融合:为了简化运维,真正地实现统一、高效、灵活地使用超算及云计算中心的IT基础设施资源,方案中采用“一个云管理平台”的方式,利用华为RH2288 V2和RH5885服务器承载超算业务以及云计算业务,整个数据中心可以实现平滑扩容,灵活地对物理资源与云计算虚拟资源实现统一管理与调度。 rn  分层:在IT基础设施实现融合的基础上,分层架构云计算服务平台,超算服务平台,作为其上各种业务应用构建的支撑。网络上,将数据中心网络设计中分为核心层与接入层,实现扁平的二层网络架构。 rn  分区:根据数据中心不同业务功能区域的隔离需求,将数据中心网络分成多个业务区域,各业务区域之间通过相应技术实现网络逻辑隔离;根据数据中心网络高效交换的需求,将数据中心存储网络和业务网络分离,保证业务数据与存储数据之间互不影响。 rn  采用了虚拟化技术,云平台的管理系统与计算资源和存储资源需要在内交换大量的管理和监控数据;虚拟机需要挂载存储池的存储资源,也需要海量的数据在数据中心网内传输;同时,网内还要传输虚拟机的业务数据,为了更好地支持这三类业务数据的传输,在数据中心内部将网络划分管理、业务、存储三个平面,三个网络平面相互隔离,互不影响。 rn  业务平面:用来承载用户端到数据中心各个业务应用系统的流量以及数据中心内部云主机之间的流量,业务平面按照业务类别的需求进一步划分为不同的业务服务区。 rn  管理平面:用来承载数据中心网络、服务器、存储及安全等设备之间的管理数据、指令操作数据以及云计算系统的维护和监控数据。管理平面与业务平面共用核心层交换剂,通过VLAN实现两个平面的隔离。 rn  存储平面:用来承载计算子系统和存储子系统之间的存储流量。存储平面网络是一个独立的隔离网络,保证存储网络的服务质量和安全。 rn  根据上述设计思路,将数据中心网络内部交换网络划分为核心与接入2个层次,按照网络功能的不同划分为外联区、网络服务区、业务服务区等多个功能区。同时,为更好的支持云计算在数据中心的运行管理,将网络分为管理、存储、业务3个网络平面。 rn  本项目建议的整体网络结构可分为:外联层、核心网络区、接入网络区、云计算业务区、管理区、超算业务区,以及存储区。 rn  方案优点: rn  一个数据中心、支持多种业务平台; rn  数据中心统一运维:数据中心的设备进行统一管理、统一运维; rn  虚拟化:架构开放、先进,支持高性能CPU/内存/存储/网络虚拟化,Qos保证,高安全性和高稳定性; rn  标准化:接口标准化,支持计费、维护管理、设备集成、运营支撑、能力API;流程标准化,支持IT管理、维护管理、业务管理、安全管理、网络管理的标准流程; rn  自动化:支持端到端的自动化部署;支持自动化管理维护;支持自助运营服务; rn  智能化:支持弹性资源调度与分配,支持灵活系统与业务部署,支持实时环境监控与报警,持动态负载均衡与节能; rn  超算中心:支持多种类型的并行任务、支持灵活多样的调度策略、支持灵活方便的节点管理、支持自定义的应用业务流程、提供通用的作业管理和调度平台、高可用性、高并发性; rn  SLA: 创新、智能的服务建模,可提供面向基础架构、应用程序性能管理、工作负荷、安全、合规和服务台管理,提供高可靠性SLA; rn  网络设备:采用数据中心级交换机,保障数据中心网络高可靠性; rn  数据高可靠性:存储采用高端NAS集群,支持多节点负载均衡,保证存储高IO、高带宽,同时保证业务连续性,高可用性; rn  高安全性:华为云解决方案采用端管云协同,从接入侧安全、网络安全、云平台安全、数据安全到管理安全,多层次安全保障设计,以预防为主,监控与审计为辅,全方位保障数据中心安全; rn  易于管理:提供方便的UI管理界面,具备较强的自发现、自部署、自服务、自管理、自恢复、自优化能力; rn  可运营:云计算资源可运营,提供客户自助服务、自助管理; rn  灵活扩展:华为云计算的系统能力支持超大规模的用户容量需求,完全能够满足未来云数据中心发展需求。后续根据业务需要实现弹性扩容、按需扩容,不影响已有业务的连续性; rn  高效的维护能力:系统支持高效的问题定位能力,缩短问题恢复时间; rn  网络平面隔离:在数据中心内部将网络划分管理、业务、存储三个平面,三个网络平面相互隔离,互不影响。 rn  网络高可靠性:网络设备均采用集群或堆叠,网络链路全部冗余链路或负荷分担,存储采用多路径方式访问,保证网络链路高可用性; rn  开放性:提供开放的APIs,可供与第三方系统进行对接; rn  高可交付性:华为具有大规模批量项目交付经验,可以帮助企业快速部署云业务、超算以及数据中心解决方案; rn  成本效益与性能:动态计算能力调整,可以根据管理策略对应用进行监控及伸缩,降低维护成本,节能减排; rn  定制开发:完全自主知识产品,掌握核心技术,定制开发能力强,可以快速响应客户需求。 rnrn  拓扑说明: rn  外联层 rn  外联层主要用于数据中心与多个互联网运营商和专网网络互联,为数据中心提供高速的互联出口链路,实现数据中心与互联网及专网之间的互通。出口路由器通过运营商链路接入多家的运营商网络,以及专网网络,提高链路的可靠性保护。同时,在该层部署高端防火墙,防火墙建议同时具备流量清洗功能,可以在数据中心遭受到DDoS攻击时候提供防护,为数据中心整体提供第一层的安全防护。 rn  核心网络区 rn  核心网络层是连接整个数据中心各区域的桥梁枢纽,承担着内部数据流量和对外数据流量的转发。 rn  由于本项目为云计算及超算,则该核心网络设备必须支持IETF标准协议TRILL(Transparent Interconnection of Lots of Links),支持10GE的核心交换组网;构建超过500个节点的超大规模二层网络,支持用户业务灵活部署,支持云计算虚拟机大范围迁移。 rn  由于是大二层网络结构,该区域是各个应用业务网关节点,且是各业务数据内部外部的交换节点,该区域部署安全检测、分析、防护设备有天然优势,对各业务应用起到第二层的安全防护。 rn  运维区 rn  该区域部署大部分的安全设备,如远程安全接入、漏洞扫描、入侵检测、审计系统等,为整网的业务提供安全的检测、分析、防护与远程安全接入功能。 rn  ·接入网络区 rn  接入网络区提供是为各种设备提供网络接入服务,各种设备通过接入网络设备提供大量的网络接口,进行数据的通信。接入网络设备与核心网络设备间通过一定收敛比的链路进行互联,为计算、存储等设备提供更大范围的数据交换服务。 rn  ·云计算业务区 rn  云计算业务区采用华为RH2288 V2和RH5885服务器,该区域通过FusionSphere云化(虚拟化)技术进行资源池化,形成计算资源池。 rn  云计算资源池按需生成的虚拟化主机。云主机可象传统主机一样工作,同时具备更高的弹性资源使用能力、扩展能力、迁移能力,具备更灵活配置和快速部署能力。 rn  管理区 rn  管理区包括运维管理和安全管理两部分,管理区的这两部分通过VLAN进行安全隔离,三层互通。 rn  运维管理区主要职责是对数据中心中包括路由器、交换机、防火墙、服务器、存储、云计算资源,以及各种应用软件等系统进行统一管理与监控。运维管理区部署与运维管理、监控等相关的服务器、控制主机、运维客户端等运维设备,以及ManageOne统一运营运维管理软件; 连接操作、管理数据中心内部所有主机、服务器、网络设备、存储设备等控制台、监控机等。 rn  安全管理区主要职责是对数据中心内部的网络、主机、系统、云计算资源和应用等设施进行统一管理与监控。安全管理区部署安全管理系统的服务器和系统,如补丁分发系统、网络防病毒系统、网页防篡改系统、主机防护系统,以及安全设备的监控台等。实现对网络、安全、设备、系统、应用、数据等的管理维护。 rn  超算区(暂不建设) rn  以物理基础设施的方式为超算服务平台提供计算资源,采用多个10GE光纤到CE12800核心交换区,管理纳入到数据中统一管理平台ManageOne。 rn  存储区 rn  数据中心的存储资源主要包括DSware分布式存储资源池和NAS存储。DSware分布式存储资源池、NAS存储主要为数据中心内部的业务应用以及数据备份提供存储资源。 rn  DSware分布式存储资源池使用数据中心内部的存储网络平面传送存储数据,网络的存储平面与业务平面物理隔离,保证存储数据传送的质量。NAS存储使用数据中心内部的业务平面网络传送存储数据,通过CIFS、NFS标准协议向数据中心内部服务器提供存储资源。 rn  三、客户价值 rn  某大学超算云计算中心的的建成将对辽沈地区科技基础设施建设、战略新兴产业培育、高科技产业集群发展发挥带动、引领作用,为沈阳市建设“两化融合” 实验区、走以信息化带动工业化的新型工业化道路作出贡献。rn文章链接:工控中国http://www.gkzhan.com/news/detail/76942.html 论坛

没有更多推荐了,返回首页