云计算中心和超算中心有何区别?

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/wangyiyungw/article/details/84840039

欢迎访问网易云社区,了解更多网易技术产品运营经验。  



传统意义上,弹性和性能确实分别是云计算和超算最大的特色,这是二者设计目标不一致所决定的。


  • 通用 vs 专用:云计算的发展就是共享经济在计算领域的演进,面向所有需要信息技术的场景,应用领域和应用层次不断扩张,要支撑构造千变万化的应用;超算则主要提供国家高科技领域和尖端技术研究需的运算速度和存储容量,包括航天、国防、石油勘探、气候建模和基因组测序等,如美国的 Sequoia(红杉)超级计算机的设计初衷主要是应用于核试验模拟,Mira (米拉)超级计算机主要用于研究星体爆炸、核反应、气候变化、喷气发动机等。


  • 分布 vs 并行:云计算以分布式为特色,统筹分散的硬件、软件和数据资源,通过软件实现资源共享和业务协同,运行的任务也是分布式的,现在甚至引申出了边缘计算;超算集群逻辑上是集中式的,针对计算密集型任务更强调并行计算(以获得高性能),各节点任务存在前后的依赖,节点之间数据交换的延迟要求非常高。


  • 成本 vs 性能:云计算是规模经济,讲究成本效益,采用廉价x86硬件搭建,可用性、可靠性、扩展性主要通过软件实现;超算舍得花钱堆计算和存储能力,加速芯片、infiniband通信、高级文件系统的使用比较随意,最后能源消耗也很高。


提问希望了解二者的区别,但小编在这里要说,将云计算和高性能计算对立起来,已经不符合当下的云和高性能计算(HPC)的发展形势了。


  • 系统管理、高带宽、低延迟、海量数据处理等,这些是当前云计算和 HPC 都需要解决的问题,某些云计算平台允许提高成本以提升高性能,同时 HPC 也需要提升扩展能力以适应数据的膨胀。比如网易云基础服务,为性能优化引入 SR-IOV 网卡 ,在必要的时候也摒弃虚拟化层;如 SparkRDMA,使用较昂贵的 RDMA 技术提升 Spark 的 Shuffle 性能;如主流深度学习框架 TensofFlow ,也支持直接通过 RDMA 来做数据传输。


  • 云计算的生意已经覆盖到 HPC 的需求,支持异构计算,各大云服务商都推出 HPC 产品,主要面向深度学习应用,但也有科学计算的探索。AlphaGo 所需要的计算能力,就是由谷歌云提供的,当然谷歌的 TPU 不可或缺。谷歌的 Cloud TPU 就是云 HPC。云 HPC 在外部网络通信上还是短板,谷歌是通过 TPU pod 运算阵列的设计支持高速数据连接的。


据介绍,第二代 TPU 设备单个的性能就能提供高达 180 teraflops 的浮点计算量。不仅如此,谷歌还将这些升级版的 TPU 集成在一起成为 Cloud TPU。每个 TPU 都包含了一个定制的高速网络,构成了一个谷歌称之为“TPU pod”的机器学习超级计算机。一个TPU pod 包含 64 个第二代TPU,最高可提供多达 11.5 petaflops,加速对单个大型机器学习模型的培训。


2018042809460515de5bcf-f9b7-42f1-9dc1-7458c4a7a799.jpg 

                                       Cloud TPU Pod 示意图,包含 64 块 Cloud TPU


  • 超算也已经通过云化的形式共享其计算能力。比如部署在国家超算广州中心的天河二号,研究人员根据应用的需求以及实际的硬件环境,对开源的 OpenStack 进行大量的定制和优化,并结合容器技术,打造企业级解决方案 KylinCloud 云平台,为政府部门和企事业单位的信息化建设和大数据处理提供资源支撑。参考:天河二号上OpenStack的实践和体会-CSDN.NET


  • 另外,从部署规模的维度来看,云计算的底层也是一种超级计算机——通过数据中心级操作系统,把不同地域的超大规模的物理服务器,聚合成一台超级计算机,统一调度和使用。


所以,现在云计算和超算更像是不同维度的概念,前者侧重信息技术的交付模式,后者侧重体现系统的构建。


相关文章:
【推荐】 纯干货!live2d动画制作简述以及踩坑

展开阅读全文

华为助力某大学超算云计算中心解决方案  

01-29

华为助力某大学超算云计算中心解决方案  rn 一、客户背景 rn  某大学云计算产业园依托学校科研力量,整合校内学科资源,建设技术开发平台,引导科研资源向大数据应用方向倾斜,云计算产业园运营的业务范围覆盖云计算、超级计算、空间信息、移动互联网等领域,将为政府部门及企业用户提供广泛的数据与基础设施服务。 rn  其中,云计算中心依托高速互联网接入和大规模网络互联,采用最新的云计算技术,依托超级计算中心的强大基础设施,为云应用的发布、托管和云服务支撑提供前后端一体化的支持,通过对计算机硬件资源的虚拟化和灵活调度,面向企事业单位提供弹性云计算服务,根据不同用户的个性化需求定制解决方案及服务模式。超级计算中心的计算能力高达1170万亿次/秒,是某地区最大的超算中心,在全国区域超算中心中仅次于上海超算中心,能够满足海量数据处理需求,为科研和高端装备制造、生物制药、动漫与影视渲染、高分辨率遥感应用等用户提供快捷、优质的计算服务。空间信息中心将为现代农业、防灾减灾、资源环境、公共安全、城市精细化管理等关系国计民生的领域提供数据服务、数据加工、咨询报告以及解决方案等。移动互联网借助一站式运营支撑系统,使开发者与行业用户得到移动应用的运营支持,实现电子商务的精准营销以及移动政务、商务信息的聚合、分析和服务等目标。与此同时,云计算产业园还具备国家级数据基础设施,提供高强度的网络安全环境,安全设施符合国家信息安全等级保护五级标准,能够提供专业的网络安全、信息安全与数据安全保障体系,并提供全方位的基础设施服务,可以实现主机托管、主机租赁以及带宽租赁服务。 rn  二、解决方案 rn  方案按照“一个云数据中心,多个业务集群资源复用”的架构原则建设,统一设计基础设施资源,数据中心按照绿色模块化架构设计。项目一期建设拟先建设统一的云计算平台以及数据中心网络、存储等部分。 rn  总体方案的核心设计思路为:“融合”、“分层”、“分区”: rn  融合:为了简化运维,真正地实现统一、高效、灵活地使用超算及云计算中心的IT基础设施资源,方案中采用“一个云管理平台”的方式,利用华为RH2288 V2和RH5885服务器承载超算业务以及云计算业务,整个数据中心可以实现平滑扩容,灵活地对物理资源与云计算虚拟资源实现统一管理与调度。 rn  分层:在IT基础设施实现融合的基础上,分层架构云计算服务平台,超算服务平台,作为其上各种业务应用构建的支撑。网络上,将数据中心网络设计中分为核心层与接入层,实现扁平的二层网络架构。 rn  分区:根据数据中心不同业务功能区域的隔离需求,将数据中心网络分成多个业务区域,各业务区域之间通过相应技术实现网络逻辑隔离;根据数据中心网络高效交换的需求,将数据中心存储网络和业务网络分离,保证业务数据与存储数据之间互不影响。 rn  采用了虚拟化技术,云平台的管理系统与计算资源和存储资源需要在内交换大量的管理和监控数据;虚拟机需要挂载存储池的存储资源,也需要海量的数据在数据中心网内传输;同时,网内还要传输虚拟机的业务数据,为了更好地支持这三类业务数据的传输,在数据中心内部将网络划分管理、业务、存储三个平面,三个网络平面相互隔离,互不影响。 rn  业务平面:用来承载用户端到数据中心各个业务应用系统的流量以及数据中心内部云主机之间的流量,业务平面按照业务类别的需求进一步划分为不同的业务服务区。 rn  管理平面:用来承载数据中心网络、服务器、存储及安全等设备之间的管理数据、指令操作数据以及云计算系统的维护和监控数据。管理平面与业务平面共用核心层交换剂,通过VLAN实现两个平面的隔离。 rn  存储平面:用来承载计算子系统和存储子系统之间的存储流量。存储平面网络是一个独立的隔离网络,保证存储网络的服务质量和安全。 rn  根据上述设计思路,将数据中心网络内部交换网络划分为核心与接入2个层次,按照网络功能的不同划分为外联区、网络服务区、业务服务区等多个功能区。同时,为更好的支持云计算在数据中心的运行管理,将网络分为管理、存储、业务3个网络平面。 rn  本项目建议的整体网络结构可分为:外联层、核心网络区、接入网络区、云计算业务区、管理区、超算业务区,以及存储区。 rn  方案优点: rn  一个数据中心、支持多种业务平台; rn  数据中心统一运维:数据中心的设备进行统一管理、统一运维; rn  虚拟化:架构开放、先进,支持高性能CPU/内存/存储/网络虚拟化,Qos保证,高安全性和高稳定性; rn  标准化:接口标准化,支持计费、维护管理、设备集成、运营支撑、能力API;流程标准化,支持IT管理、维护管理、业务管理、安全管理、网络管理的标准流程; rn  自动化:支持端到端的自动化部署;支持自动化管理维护;支持自助运营服务; rn  智能化:支持弹性资源调度与分配,支持灵活系统与业务部署,支持实时环境监控与报警,持动态负载均衡与节能; rn  超算中心:支持多种类型的并行任务、支持灵活多样的调度策略、支持灵活方便的节点管理、支持自定义的应用业务流程、提供通用的作业管理和调度平台、高可用性、高并发性; rn  SLA: 创新、智能的服务建模,可提供面向基础架构、应用程序性能管理、工作负荷、安全、合规和服务台管理,提供高可靠性SLA; rn  网络设备:采用数据中心级交换机,保障数据中心网络高可靠性; rn  数据高可靠性:存储采用高端NAS集群,支持多节点负载均衡,保证存储高IO、高带宽,同时保证业务连续性,高可用性; rn  高安全性:华为云解决方案采用端管云协同,从接入侧安全、网络安全、云平台安全、数据安全到管理安全,多层次安全保障设计,以预防为主,监控与审计为辅,全方位保障数据中心安全; rn  易于管理:提供方便的UI管理界面,具备较强的自发现、自部署、自服务、自管理、自恢复、自优化能力; rn  可运营:云计算资源可运营,提供客户自助服务、自助管理; rn  灵活扩展:华为云计算的系统能力支持超大规模的用户容量需求,完全能够满足未来云数据中心发展需求。后续根据业务需要实现弹性扩容、按需扩容,不影响已有业务的连续性; rn  高效的维护能力:系统支持高效的问题定位能力,缩短问题恢复时间; rn  网络平面隔离:在数据中心内部将网络划分管理、业务、存储三个平面,三个网络平面相互隔离,互不影响。 rn  网络高可靠性:网络设备均采用集群或堆叠,网络链路全部冗余链路或负荷分担,存储采用多路径方式访问,保证网络链路高可用性; rn  开放性:提供开放的APIs,可供与第三方系统进行对接; rn  高可交付性:华为具有大规模批量项目交付经验,可以帮助企业快速部署云业务、超算以及数据中心解决方案; rn  成本效益与性能:动态计算能力调整,可以根据管理策略对应用进行监控及伸缩,降低维护成本,节能减排; rn  定制开发:完全自主知识产品,掌握核心技术,定制开发能力强,可以快速响应客户需求。 rnrn  拓扑说明: rn  外联层 rn  外联层主要用于数据中心与多个互联网运营商和专网网络互联,为数据中心提供高速的互联出口链路,实现数据中心与互联网及专网之间的互通。出口路由器通过运营商链路接入多家的运营商网络,以及专网网络,提高链路的可靠性保护。同时,在该层部署高端防火墙,防火墙建议同时具备流量清洗功能,可以在数据中心遭受到DDoS攻击时候提供防护,为数据中心整体提供第一层的安全防护。 rn  核心网络区 rn  核心网络层是连接整个数据中心各区域的桥梁枢纽,承担着内部数据流量和对外数据流量的转发。 rn  由于本项目为云计算及超算,则该核心网络设备必须支持IETF标准协议TRILL(Transparent Interconnection of Lots of Links),支持10GE的核心交换组网;构建超过500个节点的超大规模二层网络,支持用户业务灵活部署,支持云计算虚拟机大范围迁移。 rn  由于是大二层网络结构,该区域是各个应用业务网关节点,且是各业务数据内部外部的交换节点,该区域部署安全检测、分析、防护设备有天然优势,对各业务应用起到第二层的安全防护。 rn  运维区 rn  该区域部署大部分的安全设备,如远程安全接入、漏洞扫描、入侵检测、审计系统等,为整网的业务提供安全的检测、分析、防护与远程安全接入功能。 rn  ·接入网络区 rn  接入网络区提供是为各种设备提供网络接入服务,各种设备通过接入网络设备提供大量的网络接口,进行数据的通信。接入网络设备与核心网络设备间通过一定收敛比的链路进行互联,为计算、存储等设备提供更大范围的数据交换服务。 rn  ·云计算业务区 rn  云计算业务区采用华为RH2288 V2和RH5885服务器,该区域通过FusionSphere云化(虚拟化)技术进行资源池化,形成计算资源池。 rn  云计算资源池按需生成的虚拟化主机。云主机可象传统主机一样工作,同时具备更高的弹性资源使用能力、扩展能力、迁移能力,具备更灵活配置和快速部署能力。 rn  管理区 rn  管理区包括运维管理和安全管理两部分,管理区的这两部分通过VLAN进行安全隔离,三层互通。 rn  运维管理区主要职责是对数据中心中包括路由器、交换机、防火墙、服务器、存储、云计算资源,以及各种应用软件等系统进行统一管理与监控。运维管理区部署与运维管理、监控等相关的服务器、控制主机、运维客户端等运维设备,以及ManageOne统一运营运维管理软件; 连接操作、管理数据中心内部所有主机、服务器、网络设备、存储设备等控制台、监控机等。 rn  安全管理区主要职责是对数据中心内部的网络、主机、系统、云计算资源和应用等设施进行统一管理与监控。安全管理区部署安全管理系统的服务器和系统,如补丁分发系统、网络防病毒系统、网页防篡改系统、主机防护系统,以及安全设备的监控台等。实现对网络、安全、设备、系统、应用、数据等的管理维护。 rn  超算区(暂不建设) rn  以物理基础设施的方式为超算服务平台提供计算资源,采用多个10GE光纤到CE12800核心交换区,管理纳入到数据中统一管理平台ManageOne。 rn  存储区 rn  数据中心的存储资源主要包括DSware分布式存储资源池和NAS存储。DSware分布式存储资源池、NAS存储主要为数据中心内部的业务应用以及数据备份提供存储资源。 rn  DSware分布式存储资源池使用数据中心内部的存储网络平面传送存储数据,网络的存储平面与业务平面物理隔离,保证存储数据传送的质量。NAS存储使用数据中心内部的业务平面网络传送存储数据,通过CIFS、NFS标准协议向数据中心内部服务器提供存储资源。 rn  三、客户价值 rn  某大学超算云计算中心的的建成将对辽沈地区科技基础设施建设、战略新兴产业培育、高科技产业集群发展发挥带动、引领作用,为沈阳市建设“两化融合” 实验区、走以信息化带动工业化的新型工业化道路作出贡献。rn文章链接:工控中国http://www.gkzhan.com/news/detail/76942.html 论坛

有何区别

04-13

/*-----------------------------------------------------------------------rn BEZIER.C -- Bezier Splines Demorn (c) Charles Petzold, 1998rn------------------------------------------------------------------------*/rnrn#include rnLRESULT CALLBACK WndProc (HWND, UINT, WPARAM, LPARAM) ;rnint WINAPI WinMain ( HINSTANCE hInstance, HINSTANCE hPrevInstance,rn PSTR szCmdLine, int iCmdShow)rnrn static TCHAR szAppName[] = TEXT ("Bezier") ;rn HWND hwnd ;rn MSG msg ;rn WNDCLASS wndclass ;rnrn wndclass.style = CS_HREDRAW | CS_VREDRAW ;rn wndclass.lpfnWndProc= WndProc ;rn wndclass.cbClsExtra = 0 ;rn wndclass.cbWndExtra = 0 ;rn wndclass.hInstance = hInstance ;rn wndclass.hIcon = LoadIcon (NULL, IDI_APPLICATION) ;rn wndclass.hCursor = LoadCursor (NULL, IDC_ARROW) ;rn wndclass.hbrBackground = (HBRUSH) GetStockObject (WHITE_BRUSH) ;rn wndclass.lpszMenuName = NULL ;rn wndclass.lpszClassName = szAppName ;rn rn if (!RegisterClass (&wndclass))rn rn MessageBox (NULL, TEXT ("Program requires Windows NT!"), rn szAppName, MB_ICONERROR) ;rn return 0 ;rn rn rn hwnd = CreateWindow ( szAppName, TEXT ("Bezier Splines"),rn WS_OVERLAPPEDWINDOW,rn CW_USEDEFAULT, CW_USEDEFAULT,rn CW_USEDEFAULT, CW_USEDEFAULT,rn NULL, NULL, hInstance, NULL) ;rn rn ShowWindow (hwnd, iCmdShow) ;rn UpdateWindow (hwnd) ;rn rn while (GetMessage (&msg, NULL, 0, 0))rn rn TranslateMessage (&msg) ;rn DispatchMessage (&msg) ;rn rn return msg.wParam ;rnrnrnvoid DrawBezier (HDC hdc, POINT apt[])rnrn PolyBezier (hdc, apt, 4) ;rn MoveToEx (hdc, apt[0].x, apt[0].y, NULL) ;rn LineTo (hdc, apt[1].x, apt[1].y) ;rn rn MoveToEx (hdc, apt[2].x, apt[2].y, NULL) ;rn LineTo (hdc, apt[3].x, apt[3].y) ;rnrnLRESULT CALLBACK WndProc (HWND hwnd, UINT message, WPARAM wParam, LPARAM lParam)rnrn static POINT apt[4] ;rn static HDC hdc ;rn int cxClient, cyClient ;rn PAINTSTRUCT ps ;rnrn switch (message)rn rnrn case WM_SIZE:rn cxClient = LOWORD (lParam) ;rn cyClient = HIWORD (lParam) ;rn rn apt[0].x = cxClient / 4 ;rn apt[0].y = cyClient / 2 ;rn rn apt[1].x = cxClient / 2 ;rn apt[1].y = cyClient / 4 ;rn rn apt[2].x = cxClient / 2 ;rn apt[2].y = 3 * cyClient / 4 ;rn rn apt[3].x = 3 * cxClient / 4 ;rn apt[3].y = cyClient / 2 ;rn rn return 0 ;rnrn case WM_LBUTTONDOWN:rn case WM_RBUTTONDOWN:rn case WM_MOUSEMOVE:rn if (wParam & MK_LBUTTON || wParam & MK_RBUTTON)rn rn hdc = GetDC (hwnd) ;rn SelectObject (hdc, GetStockObject (WHITE_PEN)) ; rn DrawBezier (hdc, apt) ; //擦除原来的贝塞儿线rnrn if (wParam & MK_LBUTTON)rn rn apt[1].x = LOWORD (lParam) ;rn apt[1].y = HIWORD (lParam) ; //一控制点设为鼠标所指之点rn rn rn if (wParam & MK_RBUTTON)rn rn apt[2].x = LOWORD (lParam) ;rn apt[2].y = HIWORD (lParam) ;//二控制点设为鼠标所指之点rn rn rn SelectObject (hdc, GetStockObject (BLACK_PEN)) ;rn DrawBezier (hdc, apt) ;rn ReleaseDC (hwnd, hdc) ;rn rn return 0 ;rn case WM_PAINT:rn InvalidateRect (hwnd, NULL, TRUE) ;rn rn hdc = BeginPaint (hwnd, &ps) ;rnrn DrawBezier (hdc, apt) ;rn rn EndPaint (hwnd, &ps) ;rn return 0 ;rn rn case WM_DESTROY:rn PostQuitMessage (0) ;rn return 0 ;rn rn return DefWindowProc (hwnd, message, wParam, lParam) ;rnrnrnWM_PAINT 消息中InvalidateRect (hwnd, NULL, TRUE) ;去掉此语句之后程序执行结果与原来好象没什么区别,如果有区别,区别在哪? 论坛

没有更多推荐了,返回首页