HPPCChina会议全记录整理

最新推荐文章于 2024-09-20 15:09:03 发布

king_lu

最新推荐文章于 2024-09-20 15:09:03 发布

阅读量1.8k

点赞数

分类专栏： HPC 文章标签：编程算法图像处理性能优化存储 cache

本文链接：https://blog.csdn.net/king_lu/article/details/4811564

版权

HPC 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

说明：将自己在会议期间的一些摘抄整理出来，主要是一些提纲性的内容或者要点，可能存在不准确的地方或者记录有误的地方；另外最后一部分是我的会议总结，由于有了前面的内容，所以就写的很抽象或者说比较虚，仅供大家参考。

一、大会报告系列

报告一：陈国良从单一编程模型到分层编程模型

1 、模型要包括下面几个内容：

² 机器参数

² 描述计算行为

² 评价算法复杂度函数

注意：模型需要平衡反映体系结构细节与用户使用复杂度两个方面。

2 、单一编程模型发展介绍

（ 1 ）单一 SMP ：计算、通信、存储一体 = 》互联 SMP ：

（ 2 ）分布式存储：

3 、分层计算模型

（ 1 ）并行算法设计模型

n 反映硬件特性；

n 易于算法形式化描述；

n 用算法步骤评价复杂度；

（ 2 ）并行程序设计模型

n 表达任务并行；

n 表达数据并行；

n 通信、同步；

n 线程；

（ 3 ）并行程序执行模型

n 用指令条数、运行时间进行评价；

n 性能优化；

注：从优化性能凯斯，结合具体编程编程模型开始，结合具体编程模型（ openMP 、 MPI ），考虑体系结构、应用开发经验与性能优化。相关论文在中国科大学报上。

报告二：杨学军存储墙问题

1、为什么会存在

² 处理器引脚因素：个数有限；数据传输速度有限；

² 访存 90ns VS 处理器 0.3ns ；

² 节点间通信 2000ns VS 访存 90ns ；

2、体系结构方面

² 集中式 cache ：硬件管理、容量有限（现在的 Intel 处理器）

² 分布式 cache ：软件、硬件配合管理

² 便签式 cache ：软件管理

² 流寄存器：纯软件管理，随机访问困难

3、数据访问特征

依赖性：

一致性：

相似性：

重用性：

亲和性：

生存性：

4、关于超级计算机，展望新技术

光互连技术：

3D 芯片封装技术：

报告三：张云泉

1、天河一号

异构，采用了 AMD 的 GPU 芯片，峰值达到 P 级， linpack 实测达到 563.1TFlops 。

报告四： Bill Dally

1) 数据局部性；

2) 指令级并行已到尽头；

3) 显式并行更好；

4) Efficiency == Locality

5) Performance == parallism

6) 单线程性能扩展受限 è many core

7) Explicit storage hierarchy->manage data move

8) Many efficient processors

9) Programming system abstract them

Intel 专场

1、从能耗角度

1) */+ 操作： 200pj

2) Read from cache ： 800pj

3) Move across chip ： 2000pj

4) Execution one instruction ： 7500pj

5) Read from Dram ： 12000pj

2、 Programming model

1) Task ： TBD, Cilk

2) Loop ： OpenMP

3) Data ： Ct

4) Threads ： pthread

5) Serial ： paralisms

注：

² Ct 是显式并行；动态编译、激进并行、向量化；虚拟机执行；

² 两次编译：

1） gcc/icc 产生 Ct 代码，

2）经过 JIT 产生 code ，然后调用 parallel runtime

² 利用 kernel 与 intrinsic

报告五：陈德辉高性能计算机技术对数值天气预报发展的支撑作用

1 、

Top500

1 、几个以前不知道内容

1 ）超级计算机数量从多往少： HP ， IBM ， Cray ， Dell ， SGI ， SUN

2 ） 2018 年，大约达到 600MFlops/Watt ， 2015 年会有 1Tflops 的 note book

3 ） linpack 测试时间会是个问题，需要几周？然而全机器无故障时间却在 1 小时以下，无法进行 linpack 测试？在德国汉堡会议之后，也许会修改 linpack 。

报告六：袁国兴开发、研制自主知识产权的高性能计算机软件

1 、

1 ）建模

2 ）问题离散化：偏微分方程，边界条件离散化，转换为数值计算

3 ）并行算法、舍入误差（一年写一个程序）

4 ）编程

2 、美国计划在 2030 年解决高性能软件问题，基于科学的物理建模，物理现象与基本原理连接起来，用数值模拟代替核试验。

报告七：孙凝晖中国如何应对 E 级计算竞争

1 、十大挑战

描述： notebook ： 2015 年 1T ； 2020 年 10Tflops

1 ）技术周期： 10 年 -20 年；

天河一号：计算功耗比千万亿次 /10MW ；

性能提高 1000 倍，功耗只提高 10 倍；

从系统结构方向降低功耗；

2 ）超大规模并行：并行算法至关重要

3 ）市场：扩大用户

4 ）应用：有足够价值的 E 级应用

5 ）容错：硬件， OS ，算法（超级计算机无错运行时间不会超过一小时）

6 ）依赖的器件革命何时发生：光互连，封装技术 15nm 以内， 3D 封装，新存储体

7 ）依赖于新编程语言的革命

8 ）与新尖应用的关系：互联网服务，云计算

9 ）高性能应用软件产业：市场机会

10 ）同质化平台：

2 、 2020 年技术报告

1 ）单片，千核，百瓦， 10T 级

2 ）亿级

3 ）核间网络互联

报告八：漆锋滨 E 级计算机的挑战与对策神威计算机江南所

1 、

1 ） 94 年：讨论 P 级 = 》 2008 年实现

2007 年：讨论 E 级 = 》大约在 2018 年实现

2 ） who need 用户

3 ） now ： multi-core=>many-core

英伟达：到 2020 年达到 20T; Intel 10T

5 万 -10 万处理器数级别，神威计算机曾经达到过 6 万处理器；（神舟、神威、神光）

4 ） what problems

功耗：美国现在大约 7.5% 电力，将来会耗电 2.5% ， E 级计算能力功耗在 50MW-100MW 。

存储： 100-150 PB ， 0.1-0.5 存储 / 计算比

带宽： 2EB/s ， 20TB/s 单处理器

分带宽：网络带宽？， 1EB/s ，电互联 => 光互连

可靠性：全系统无故障运行时间 <1 小时

Linpck ：大约要跑十天，但是只能无故障运行 1 小时，所以可能都无法完成 linpck 测试。

并行扩展性问题：

I/O 问题：

亿级并行：

5 ） how to resolve

3D 封装技术：片内 50GB Dram ， 2000 多个核；

SIMD ，多线程，智能 cache ；

光互联：提高 250 倍带宽，功耗下降 10 倍；

冷却技术：打孔水冷（水会穿过芯片）；

系统管理：分布式；

编程模型：增量，局部性

报告九：卢凯（很年轻，国防科大） E 级系统的可靠性设计与挑战

存储失效：

系统失效：

一致性系统：

二、论文报告

论文 1 ：九所（应用物理与数学研究所）邓力核实验数值模拟

1 ）背景介绍：

蒙特卡罗程序：最初从美国引进，后来美国禁止该程序出口，所以目前的 MPI 并行版由九所自己开发。

2 ）算法内容

粒子数问题：

（ 1 ）外源问题： MCNP 解决积分问题， 1 个粒子 100 多次计算，

（ 2 ）迭代计算—— >MPI Broadcast —— > 中子产生—— > 中子消失（微分到积分）

（ 3 ）临界问题：中子代之间的信息，中子的下一代依赖于上一代；超临界问题（核武器）；迭代计算；

（ 4 ）随机数问题：分段（问题规模降低，串行并行一致） = 》长周期随机数；

（ 5 ）基准测试程序：网格模型测试 I/O 加速比；

2 、目前的并行版本与美国版本的对比

1 ）特点

MCNP-5 ：隐藏并行（美国版，各个模块被集成，无法看到内部代码）

32768 个处理器，银河 V ， 300 多倍加速；

线性加速比（ 30 度 -40 度）

2 ）未来

中国准备开发自己的 MCMG ，即定态多群中子光子耦合运行程序

3 ）现在工作：

正在向 GPU 转移；为什么可以用在 GPU 上呢？原因如下：

同步性好；

数据独立；

负载平衡；

4 ）对超级计算机的需求无止境

目前只计算 10 亿个粒子，将来会用到 10 的 23 次方个粒子，所以说对计算机资源的需求还是有的。

三、关于应用的一点总结：

1 、生命科学方面

1 ）分子动力学

2 ）基因排序

3 ）蛋白质折叠

4 ）计算化学

2 、工程科学方面

1 ） CAD CAM CAE ：

2 ）天体物理：

3 ） CFD （流体力学）

4 ） Mathematics ， Labview

3 、政府国防方面

武器，图像处理，战地模拟

4 、医疗方面

MRI ， CT ，影像辅助治疗

5、石油石化方面

1 ）地震资料处理

2 ）油藏模拟（有公司专门提供在 GPU 集群上的此类计算服务）

6 、金融方面：

风险分析，衍生性金融商品模拟，交易算法

6、可视化方面：渲染

7、电子设计自动化： EDA ， SPICE ， Verilog ， 3DEM

具体的一些应用举例：

1 、分子动力学： NAMD/VMD 的纳米孔（ nanopore ）算例，基于 charm++ 并行支持库， charm run 软件进行任务分发（ NAMD2 为 namd 的 MPI 版本）

2 、天体物理学： N-body 问题

3 、 Matlab ： gfx_raindrop_example( 实时雨滴仿真 )

gfx_vortex_example （涡流模拟）

fdtd_example （电磁学核地质学应用）

filter2_example （图像处理系统）

pi_example （圆周率计算）

fft_example

四、我的总结

通过参加 HPCChina2009 会议，对超级计算机硬件平台发展面临的机遇、挑战以及超级计算机上的应用方面面临的问题。

随着中国经济的不断进步以及国家重大专项的开展、科研单位的技术水平的发展，对超级计算机的需求不断提高。例如大飞机项目，新型战斗机研制等对超级计算资源的需求不断增加。

曙光在 2010 年会推出峰值达到 1P 的超级计算机，会上专家们的一致共识是大约在 2017 年左右会出现具有 E 级计算能力的超级计算机，但是依照目前的技术， E 级超级计算机的功耗、存储、可靠性等方面面临很大挑战，如何应对这些挑战，大家探讨了一些可能解决这些问题的技术，例如光互联、 3D 封装、芯片水冷技术等。

目前，随着曙光 5000 以及天河一号的出现，中国已经有了接近 P 级的超级计算机，但是与此同时能够有效利用这些计算能力的应用滞后于硬件平台的进步。所以，如何开发出能够充分利用 P 级计算能力的应用成为大家关注的焦点。陈国良院士从编程模型的改变角度来探讨应用的开发，另外陈德辉老师、袁国兴老师都介绍了应用开发方面的情况。

另外，在小组论文讨论会上，向参会人员介绍了我们关于 POM 的工作，并与大家进行了讨论。并同与会的一些专家就自己关系的问题进行了讨论交流，主要包括与 Intel 的吴甘沙讨论 Ct 以及并行编程模型方面的问题，并就 runtime 优化方面进行了探讨，与九所、西北工业大学的一些研究人员讨论了应用开发问题等。

通过参加 HPCChina2009 会议，对超级计算领域的一些问题，例如超级计算机硬件平台面临的挑战，如何写出有效利用计算资源的应用这些问题有了更深刻的印象，同时，也激发了对目前工作的思考，即从哪些方面考虑我们正在进行统一编程模型的设计开发工作，例如如何评价编程模型的易编程性、性能；如何挖掘出需求等问题；如何优化模型的性能。

2009-10-29 参加会议

2009-11-14 整理