北大教授——面向超大模型的分布式深度模型（汇报分享）

Janice(贾雯爽)

已于 2024-06-29 17:50:19 修改

阅读量1.5k

点赞数 39

分类专栏：大数据文章标签：分布式 rabbitmq big data

于 2024-02-02 15:08:18 首次发布

本文链接：https://blog.csdn.net/Janice01/article/details/135993234

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

文章介绍了河图系统（HetuSystem），一个由北京大学研发的分布式深度学习框架，专为超大模型设计，具有自动分布式并行策略、一致性协议等创新。同时对比了ParameterServer和数据并行/模型并行的区别，强调了河图系统的通用性、高效性和易用性。崔斌教授的贡献和研究方向也在文中得到提及。

摘要由CSDN通过智能技术生成

面向超大模型的分布式深度学习框架有河图系统（Hetu System）、Parameter Server、数据并行和模型并行等。

河图系统（Hetu System）：是一个面向超大模型的分布式深度学习系统，相比现有的老牌分布式深度学习框架，在系统功能性、系统复杂性和系统易用性上有诸多创新贡献，如自动分布式并行策略、一致性协议和通信架构、GPU 算子优化等方面。
Parameter Server：不仅被直接应用在各大公司的机器学习平台上，而且也被集成在TensorFlow，Pytroch、MindSpore、PaddlePaddle等主流的深度框架中，作为机器学习分布式训练最重要的解决方案之一。
数据并行和模型并行：数据并行最常见于模型尺寸能够被 GPU 内存容纳的场景，而模型并行则是通过把一个大模型拆分到多个 GPU 上训练，实现模型尺寸超过单个 GPU 显存的深度学习模型训练。

这些框架均支持超大型模型的训练，并具有不同的特点和优势。在实际应用中，可以根据具体需求选择适合的框架。

面向超大模型的分布式深度学习框架之间的区别主要体现在以下几个方面：

适用场景：河图系统适用于深度学习模型训练和推理，特别是超大模型的训练和推理；Parameter Server主要用于机器学习分布式训练，尤其是深度学习模型的训练；数据并行和模型并行则适用于不同规模的深度学习模型训练。
架构设计：河图系统采用了创新的分布式深度学习架构，将模型和数据分布存储在计算节点上，实现了高效的并行计算和数据管理；Parameter Server则采用参数服务器架构，将计算资源分为参数服务器和工作节点，参数服务器用于存储参数，工作节点用于执行算法训练；数据并行和模型并行则根据模型规模和硬件资源进行相应的并行设计。
易用性和可扩展性：河图系统提供了丰富的深度学习框架接口和工具，方便用户进行模型训练和推理；同时，河图系统还支持多种不同的硬件平台，具有良好的可扩展性。Parameter Server已经被集成在TensorFlow、Pytroch等主流深度框架中，具有较好的易用性和可扩展性。数据并行和模型并行则需要根据具体需求进行相应的设计和优化，相对而言，可能具有一定的复杂性和限制性。
性能和效率：河图系统采用了高效的分布式计算和数据管理策略，能够实现快速、稳定的模型训练和推理性能；Parameter Server在分布式训练方面表现优异，能够处理大规模深度学习模型的训练任务；数据并行和模型并行则根据具体情况可能会有不同的性能和效率表现。

说到这里就不得不介绍下河图系统的发展由来

河图系统（Hetu System）是一个兼顾创新性和可用性的分布式深度学习系统，是首个由国内高校自主研发的分布式深度学习系统。以下是关于河图系统的重点介绍：

通用性：河图系统采用标准的数据流图方式定义深度学习模型，底层实现了丰富的CPU以及GPU算子库，支持大量常见深度学习模型的计算。此外，该系统还支持10余种主流机器学习算法的高效求解，如LR、GBDT、LDA等。
高效性：河图系统采用多项技术创新，使得其计算性能相比于主流深度学习系统显著提升。在常见的DNN、CNN、RNN基准测试上，河图系统取得了至少30%的性能优势。
敏捷性：河图系统支持自动化机器学习流程搜索与求解，包括特征工程、模型选择、超参数调优等，使机器学习模型开发过程更容易。
应用领域：河图系统广泛应用于推荐、搜索、图像等领域，提供端到端的深度学习解决方案，并拥有导航、设置、多人游戏、智能推荐与搜索等功能。例如，在图像识别领域，河图系统实现了精准的图像识别和分类；在智能推荐领域，河图系统提供了高效的推荐算法和解决方案。

总之，河图系统作为首个由国内高校自主研发的分布式深度学习系统，具有通用性、高效性和敏捷性等优势，可以广泛应用于不同领域，提供端到端的深度学习解决方案。

崔斌教授是北京大学计算机学院的副院长，同时也是数据科学与工程研究所的所长。他入选了2023年的IEEE Fellow，这是因为他为大规模数据的管理、处理和分析做出了重要贡献。崔斌教授的主要研究方向包括数据库性能优化、多媒体数据库、查询和索引技术、数据挖掘、web 信息管理、信息检索等。河图便是崔教授参与研究的项目之一，下面是崔教授在与上海交大进行学术交流时所展示的ppt,其中讲述里深度学习，超大模型等多个概念，从背景、社会需求等多个方面结合分析现有模型的优缺点并对如何通过现有技术改进这些优缺点进一步阐述，并将部分资料开源供大家学习。

在我看来，崔斌教授的研究方向具有很高的实用性和前瞻性。在当今大数据时代，大规模数据的处理、分析和挖掘已经成为各行各业面临的重要问题。崔教授的研究成果在数据库性能优化、多媒体数据库、查询和索引技术、数据挖掘、web 信息管理、信息检索等领域都有着广泛的应用前景。

同时，我也非常钦佩崔教授的学术成就和贡献。他不仅在学术界取得了很高的声誉，而且在实际应用中也取得了显著的成果。他的研究成果为解决大规模数据处理和分析问题提供了重要的思路和方法，对于推动相关领域的发展具有重要意义。

作为一名知乎作者，我也非常关注深度学习和超大模型等热门话题。我相信这些技术对于未来的人工智能发展将起到至关重要的作用。崔教授的研究成果在这些领域也有着广泛的应用前景，他对于这些技术的深入分析和探讨也为我们提供了很多有益的启示和思考。

记录学习，分享生活，在有限的人生做无限的事，与诸君共勉。

平时也会在朋友圈或技术群分享最近的优秀资源，因为热爱且有梦想，所以一直坚持，如果你也是，欢迎你成为我的互联网学术搭子，哈哈哈哈！虽然菜，但身为中华儿女，真诚、善良、勇敢、有梦想，是从悬崖峭壁上自己一步步爬上来的人，向着顶峰，英勇前进！