![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HPC&AI
h_m_l
HPC&Machine Learning
展开
-
HPC领域有价值的信息源
行业调研:1.Intersect360:http://www.intersect360.com/index.html2.Gartner:https://www.gartner.com/HPC行业博客:1.HPCwire:https://www.hpcwire.com/2.insideHPC:https://insidehpc.com/3.HPC in ...原创 2019-12-23 14:37:35 · 793 阅读 · 0 评论 -
面向E级高性能计算的软件栈(一)
1. 介绍尽管处理器频率停滞不前,但维持可控的功率预算的需求,对生产更强大超级计算机的动力构成了挑战。高性能计算(HPC)系统随后采用了基于稳定增长的计算单元的多级、大规模并行计算。因此,在可靠性和功率约束下实现百亿亿次性能所需要的十亿个并行方式有望在50-100k节点中实现,这将推动未来的节点架构朝着多核和基于加速器的设计方向发展,从而按agnitude的顺序增加每个节点的复杂性。同时,成本...翻译 2019-11-11 18:04:32 · 1214 阅读 · 0 评论 -
面向E级高性能计算的软件栈(二)
2. PMIx 社区PMIx社区由横跨一般HPC领域的行业、政府和学术界成员组成,专门关注应用程序启动和执行的编排。社区的出现源于对两个问题的共同关注,一个是与机器规模的不断扩大相关的问题,另一个是支持HPC编程领域不断增长的创新浪潮的能力。在如此多样化的集合中组成联盟绝非易事,一个关键因素是早期达成的协议,即任何SMS子系统都保留对任何请求返回“不支持”响应的权利。因此,与会者基本上同意...翻译 2019-12-05 16:36:54 · 797 阅读 · 0 评论 -
面向E级高性能计算的软件栈(三)
3. 当前关注领域在本节中,我们将讨论当前的PMIx标准工作组,以及他们正在设计的接口如何帮助降低开销并提供新功能。除非指定,否则这些功能存在于当前的v2.0规范中,并在相应的v2.x参考实现中得到支持。3.1 协调启动过程正如前面所讨论的,应用程序启动期间的最大时间成本历来是集体共享连接端点信息(BCX)所需的时间,其次是开始操作之前的屏障(barrier)。对交换数据的分析显示,在...翻译 2019-12-06 16:05:55 · 360 阅读 · 2 评论 -
面向E级高性能计算的软件栈(四)
3.3. 动态进程管理历史动态进程管理API反映了大容量同步编程模型(如MPI-3标准)的需求,这些模型要求操作作为一个集合执行,所有指定的进程在声明操作完成之前参与操作。最近,编程库已经开始向异步模型的方向发展,在异步模型中,进程定期聚合成组,然后在完成一些操作之后解散。这些新方法将受益于通知其他进程希望聚合的功能,并允许聚合进程本身异步进行。PMIx通过引入在以前PMI实现中找到的“C...翻译 2019-12-07 15:55:04 · 365 阅读 · 0 评论 -
面向E级高性能计算的软件栈(五)
4. 使用示例在本节中,我们提出了一个PMIx接口的实际用例,该用例基于用户级故障缓解(ULFM)规范来支持开放MPI中的容错,该规范加强了检测并协调对故障事件的响应。响应故障是一个复杂的问题,因为系统中的各种组件都可能报告事件,例如网络驱动程序、来自故障MPI通信的带内检测、MPI进程资源环境、系统范围的资源管理器RAS服务、交换机和SNMP陷阱。类似地,多个组件可能对错误事件感兴趣并作...翻译 2019-12-07 18:14:03 · 684 阅读 · 0 评论