2024智源大会议程公开丨AI系统

智源社区

于 2024-06-04 18:45:31 发布

阅读量749

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzU5ODg0MTAwMw==&mid=2247547607&idx=1&sn=3f53e6634e26134407d2a07b379ad1a6&chksm=ff6cb0b72a03539a87ae978726418a20b9aaee335cce89ed33f23ff51dc21aadbbd59cf9bd86&scene=126&sessionid=0

版权

2024年6月14日-15日，第6届北京智源大会将以线下与线上结合的形式召开，线下会场设在中关村国家自主创新示范区会议中心。2024智源大会再次以全球视野，汇聚年度杰出工作研究者，交流新思想，探讨新思路，引领新前沿。目前已正式开放报名渠道。

北京智源大会倒计时：11 天

AI系统论坛丨6月15日上午

每年的智源大会AI系统论坛都是一场技术的盛会，吸引了全球在AI系统领域最受瞩目的技术创新者和高影响力成果的负责人参与。随着大模型对算法、算力和数据需求的持续快速攀升，以及多元化芯片架构的不断涌现，AI系统技术面临前所未有的挑战，全栈技术也因此受到广泛关注。

今年的论坛将聚焦于AI系统的全栈创新，涵盖算子及AI编译器、并行框架优化、超大规模AI集群网络架构优化等关键领域。同时，我们将深入探讨在不同芯片架构下的AI加速技术。通过这次论坛，我们希望集结顶尖智慧，共同推进AI系统技术的突破与发展，引领未来科技的变革。

论坛议程

论坛主席

林咏华，智源研究院副院长兼总工程师

林咏华现任北京智源人工智能研究院副院长兼总工程师, 主管大模型研究中心、人工智能系统及基础软件研究、产业生态合作等重要方向。IEEE女工程师亚太区领导组成员，IEEE女工程师协会北京分会的创始人。曾任IBM中国研究院院长，同时也是IBM全球杰出工程师，在IBM内部引领全球人工智能系统的创新。从事近20年的系统架构、云计算、AI系统, 计算机视觉等领域的研究。本人有超过50个全球专利，并多次获得ACM/IEEE最佳论文奖。获评2019年福布斯中国50位科技领导女性。

演讲主题及嘉宾介绍（按照发言先后顺序）

1、Unlocking AI Potential: Navigating the Challenges and Opportunities of Diverse Hardware Accelerators（线上）

报告简介：In this presentation, I explore the rapidly evolving landscape of AI hardware accelerators, delving into the challenges and opportunities presented by their diverse architectures and capabilities. As AI continues to drive innovations across various fields, the integration of advanced accelerators like GPUs, TPUs, NPUs, FPGAs, and ASICs with sophisticated AI frameworks such as PyTorch, TensorFlow, JAX, Pallas, Triton, IREE, and MLIR has become pivotal. I will dissect the complexities of this ecosystem, highlighting the strategies to navigate compatibility and performance optimization issues, and discussing the role of emerging technologies in shaping the future of AI infrastructure. Attendees will gain a comprehensive understanding of how to leverage these tools to push the boundaries of AI development, ensuring their projects remain at the cutting edge of technological advancement.

David Edelsohn， IBM Research, STSM Open Ecosystem

David has been at the forefront of Open Source Software and Linux by establishing and expanding the global GNU Toolchain ecosystem, the Linux software ecosystem for IBM, and by enhancing the AI software ecosystem. David is an ACM Senior Member and has a Ph.D. in computational physics.

2、AI系统领域还有哪些比较重要的问题？

报告简介：大模型的流行，给AI系统带来了一系列新问题，譬如亟需提升大模型推理效率，也让一部分过去重要的问题不再重要。无论是学术界还是工业界的AI系统从业者都在思考：AI系统领域还有哪些没解决好的重要问题。报告将分享SiliconFlow团队对这一问题的思考和实践。

袁进辉，硅基流动创始人

袁进辉，2003年于西安电子科技大学(Xidian University)计算机专业获得学士学位，2008年于清华大学计算机系获得工学博士学位，清华大学优秀博士学位论文奖获得者，2008~2011年在清华博士后期间开展计算神经科学方面的研究，2013~2016年他任微软亚洲研究院主管研究员(Lead Researcher)，负责研发大规模机器学习系统LightLDA并服务于微软产品。2016年~2023年，他发起和主导研发了开源深度学习框架OneFlow，在分布式深度学习系统编程易用性和高效性方向设计了一系列新方法，并为工业界广泛采用。目前他的研究领域为AI Infrastructure，致力于通过算法、系统、硬件协同设计研发大模型推理加速引擎，降低大模型应用成本和开发门槛。

3、FlagGems通用Triton算子库

报告简介：大模型的流行，Triton是一种新型AI算子开发语言，由于相对CUDA、HIP等传加速编程模型更易于编程，近年来在AI领域广受欢迎，在多元算力并存的时代，Triton以其开源、开放、易开发性，有潜力成为一种可以真正统一多后端的高效算子编程工具。然而目前缺乏一套基于Triton开发的通用算子库，且官方支持的后端硬件也很有限。鉴于此，智源联合多家厂商，共同研发FlagGems算子库，面向大模型训练提供通用、广泛、跨后端算子支持。FlagGems算子库智源大会正式发布，本次分享将介绍FlagGems算子库的研发背景、关键技术、性能数据和多后端支持情况。

白童心，智源研究院研究员

负责AI算子库和编译器，加入智源之前曾在百度飞桨、西门子中国研究院、中科院深圳先进技术研究院、H2O和Teradata工作过，研究兴趣包括深度学习框架、并行编程与编译器、分布式数据库与机器学习系统，博士毕业于University of Rochester计算机科学专业。

4、深度学习编译：从定制化资源分配到高性能代码生成

报告简介：面向深度学习的编译系统已经形成了从计算图划分、算子优化以及代码生成多个阶段的统一编译流程。针对面向深度学习的编译系统，本报告将首先介绍如何利用深度神经网络的模型特征实现调度，以期获得更好的资源分配方案并加强硬件的资源利用率。接下来，本报告将介绍深度学习编译中图层和算子层优化的实现方案，探讨如何实现不同编译抽象层次之间的协同。最后，本报告内容还将介绍如何面向特定硬件架构生成高性能的代码，做好深度学习编译阶段的最后一步。

赵捷，湖南大学信息科学工程学院教授

赵捷本科毕业于清华大学计算机科学与技术系，并于2019年在法国巴黎高等师范学习和INRIA共同领导下的PARKAS实验室获得博士学位。他目前担任湖南大学信息科学工程学院教授，主要研究方向包括张量编译器、基于多面体模型的代码生成与优化以及基础数学函数库等，他也是华为MindSpore社区技术专家组成员，与华为2012实验室团队合作开发了AKG张量编译器。赵捷博士以第一作者身份在系统软件、体系结构和编译器领域的顶级会议和期刊上发表了多篇文章，包括ASE、CC、MICRO、MLSys、OSDI、PACT、PLDI、PPoPP等，2020年发表在MICRO-53会议上的论文获最佳论文提名。

5、多元算力下大模型并行训练框架技术与实践

报告简介：AIGC浪潮带来了算力需求的高峰，促进了国内外多元算力的蓬勃发展，但也给用户带来了不同算力间的“资源墙”难题。为应对这些挑战，智源与合作伙伴在开源基础上构建了大模型并行训练与推理框架FlagScale。本报告将分享FlagScale框架在解决多元算力挑战方面的最新进展和应用实践，包括不同芯片上异构混合训练技术原理及性能表现，在新芯片上算法与软硬件系统如何协同实现千卡千亿MoE模型端到端高效训练，多模态长序列预训练支持情况及对分布式系统的新挑战，多芯片适配及跨芯片算力自动调优与自动迁移技术等。

敖玉龙，智源研究院研究员

敖玉龙，现北京智源人工智能研究院AI框架研发负责人，北京大学博士后，中国科学院博士，长期从事高性能计算、科学计算与人工智能等分布式系统与程序优化相关研究，曾任职于华为主任工程师和百度资深工程师，参与研制了相关大模型，有丰富大模型分布式系统产业研发与实践经验，于2016年共同获得美国计算机学会“戈登•贝尔”奖，在SC、IPDPS、ICPP、TPDS、TACO、Cluster、JCST等国际顶级会议与期刊发表论文10多篇，参与研制了IEEE 2941.1-2022国际算子接口标准，并获得多项国内专利和国际专利授权。

6、大模型高效可扩展并行策略研究

报告简介：大模型的并行策略越来越复杂，这给系统开发及性能优化人员带来沉重负担。为应对上述挑战，提出一种深度学习自动分布式并行框架AutoDDL。相比已有框架，AutoDDL可以描述更高维度并行算法，从而拓宽了并行策略空间，可实现端到端通信最优并行策略的自动搜索，使大模型获得更好的并行可扩展性。针对大模型流水线并行，提出一种融合二阶优化方法的流水线并行方案PipeFisher。该方案通过在流水线空泡中自动填充二阶计算负载，提升模型收敛速率及GPU硬件利用率，可显著降低大模型端到端训练时间。

李士刚，北京邮电大学教授

李士刚，北京邮电大学，计算机学院(国家示范性软件学院)，“拔尖人才”教授，博士生导师，CCF、ACM及IEEE高级会员，获评CCF高性能计算“卓越青年”，入选国家高层次青年人才计划。深耕并行与分布式计算、异构计算、深度学习系统领域，主持国家级科研项目及课题多项，在SC、PPoPP、ICS、TPDS、NSDI等重要会议及期刊上发表论文60余篇，解决或缓解深度学习系统及大规模并行算法等高效并行可扩展难、通信瓶颈、计算瓶颈等关键问题。多次获得顶级学术会议最佳论文提名奖(SC、PPoPP等), 获MLSys'21杰出论文奖，SC'22最佳结果复现奖，CACM Research Highlights奖。担任SC、PPoPP等权威会议TPC委员40余次，ICS'18研讨会主席，IISWC'20出版主席，PPoPP'23宣传主席，HPC China'23 TPC Track主席，Cluster Computing编委, CCF THPC青年编委。

7、RISC-V+AI的系统软件

报告简介：近年来，RISC-V 开源指令集架构快速发展，已成为当前国际科技竞争的焦点，同时也成为一个有效抓手来以开源开放凝聚产业发展共识，打造全球算力产业生态。尽管当前英伟达的 GPU 及其之上的 CUDA 软件生态主导着全球 AI 算力市场，但产业界迫切希望建立新的软件生态以突破CUDA生态壁垒。一个已逐渐形成的共识是以RISC-V AI芯片为共性，团结广大相关公司和高校科研院所以开源开放的方式共同制定AI扩展指令集标准，并合作研发其上的开源AI系统软件栈。本报告讨论这个方向及其面临的重大机遇和应对挑战的思路。

谢涛，北京大学教授

谢涛，北京大学讲席教授，北京大学计算机学院软件科学与工程系主任，高可信软件技术教育部重点实验室副主任。曾任美国UIUC计算机系正教授。当选欧洲科学院外籍院士、ACM/IEEE/AAAS/CCF会士。担任中国计算机学会系统软件专委会主任、RISC-V+AI算力生态（RACE）委员会主席、RISC-V国际基金会人工智能与机器学习技术专委会（AI/ML SIG）主席。

8、八卦炉：面向国产智能算力核心基础软件

报告简介：随着大模型技术的不断发展，其对算力的需求也在持续增大。然而，中国在获取最先进的芯片方面面临巨大的挑战。如何充分发挥国产算力硬件性能，让国产算力易用好用，满足大模型对算力的需求具有重要意义。针对此挑战，我们在国产智能算力上开展核心基础软件相关研究。其中，在新一代国产超级计算机上，我们从编译器、算子库、并行加速和负载均衡等方面对大模型进行了深入优化，优化后的训练性能达到EFLOPS。

翟季冬，清华大学长聘教授

翟季冬，清华大学计算机系长聘教授，博士生导师。国家杰出青年科学基金获得者，国家重点研发计划项目负责人。清华大学计算机系高性能所副所长。CCF高性能计算专委副主任、CCF杰出会员、ACM中国高性能计算专家委员会秘书长。主要研究领域包括并行计算、编程模型与编译优化。在并行计算与系统领域顶级会议和期刊发表论文100余篇，出版专著1部。研究成果获IEEE TPDS 2021最佳论文奖、IEEE CLUSTER 2021最佳论文奖、ACM ICS 2021最佳学生论文奖等。担任NPC 2018程序委员会主席、IEEE CLUSTER 2021领域主席，IEEE Transactions on Computers等多个国际学术期刊编委。担任清华大学学生超算团队教练，指导的团队十三次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS青年科学家奖。

9、网络驱动的大规模 AI训练-阿里云可预期网络 HPN7.0 数据中心架构

报告简介：AI 训练场景（特别是大模型训练）算力扩展的核心是大规模、高性能的数据中心网络集群。近年来阿里云提出端网融合可预期网络的理念，并在智算领域创新设计出 HPN7.0 架构体系，基于 Ethernet 构建了超大规模、极致性能的集群网络互联，本次分享阿里云 HPN7.0 网络系统架构的设计思考和最佳实践。