并行训练技术概述

染念

于 2024-08-08 18:00:27 发布

阅读量129

点赞数 1

分类专栏： # 并行训练文章标签：人工智能深度学习并行训练 gpu算力

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_28356373/article/details/141032889

版权

并行训练专栏收录该内容

1 篇文章 0 订阅

订阅专栏

继续开一个新专栏，这里主要收集一些并行训练的相关内容。

文章目录

并行/分布式训练概述
为什么需要？
如何实施？

并行/分布式训练概述

首先想要说明的是，并行训练和分布式训练的概念其实都能讲，但前者可能更侧重于技术实施，而后者更倾向于设备，网络等资源层面的分布式，在本专栏，我们都一视同仁。从个人观点来说，如果偏软件点，说并行最好了。

并行训练是指将机器学习或者深度学习模型的训练任务给分解成多个子任务，然后在多个计算设备上去并行地进行训练。
实施并行训练的总体目标是提升总的训练速度，减少模型训练的总体时间。

为什么需要？

目前最热的方向之一就是大模型，这个大指的是参数量规模的大，我们下载一些开源LLM权重，几乎都是7B，70B，130B等等。而这些模型如果使用传统的单机单卡模式进行训练，那么花费的时间，说不定这个企业还没有等发布就倒闭了。
所以，我们就需要基于单机多卡甚至是多机多卡来进行大模型的训练。

如何实施？

为了实现这个目标，一般我们需要根据硬件资源、数据和模型规模的情况来考虑对计算任务、训练数据和模型来进行划分，从而进行分布式的存储和并行训练。
那么从数据和模型这两个维度考虑，并行加速通常有几种基本的分布式并行策略，包括数据并行、模型并行以及混合并行。

数据并行是最常见的并行形式，它通过对训练数据进行划分并将同一个模型复制到多个设备上，从而并行地执行不同的数据分片。
模型并行则是指将模型进行划分，将模型中的算子分发到多个不同的设备上，分别进行计算。
混合并行则是考虑了对数据和模型的划分，将数据并行、模型并行等多种并行技术结合起来进行分布式训练。

接下来我们将慢慢的解析这些内容。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
并行训练技术概述

首先想要说明的是，并行训练和分布式训练的概念其实都能讲，但前者可能更侧重于技术实施，而后者更倾向于设备，网络等资源层面的分布式，在本专栏，我们都一视同仁。从个人观点来说，如果偏软件点，说并行最好了。并行训练是指将机器学习或者深度学习模型的训练任务给分解成多个子任务，然后在多个计算设备上去并行地进行训练。实施并行训练的总体目标是提升总的训练速度，减少模型训练的总体时间。
复制链接

扫一扫

专栏目录

染念 CSDN认证博客专家 CSDN认证企业博客

码龄9年

西安电子科技大学

27: 原创

5133: 周排名

4527: 总排名

29万+: 访问

: 等级

6224: 积分

3165: 粉丝

1342: 获赞

1483: 评论

1295: 收藏

私信

关注

热门文章

分类专栏

最新评论

并行训练技术概述
染念:
英特尔生态的深度学习科研环境配置-A770为例
染念: 重新安装试试，看看oneapi版本对吗？https://github.com/intel/intel-extension-for-pytorch/issues/317
英特尔生态的深度学习科研环境配置-A770为例
yixincfd: Traceback (most recent call last): File "<string>", line 1, in <module> File "/home/yx/Software/anaconda3/envs/A770/lib/python3.10/site-packages/intel_extension_for_pytorch/__init__.py", line 95, in <module> from .utils._proxy_module import * File "/home/yx/Software/anaconda3/envs/A770/lib/python3.10/site-packages/intel_extension_for_pytorch/utils/_proxy_module.py", line 2, in <module> import intel_extension_for_pytorch._C ImportError: /home/yx/Software/anaconda3/envs/A770/lib/python3.10/site-packages/intel_extension_for_pytorch/lib/libintel-ext-pt-gpu.so: undefined symbol: _ZNK4sycl3_V16detail16AccessorBaseHost25isMemoryObjectUsedByGraphEv
英特尔生态的深度学习科研环境配置-A770为例
染念: 驱动开始还是要的
英特尔生态的深度学习科研环境配置-A770为例
2301_81437893: 你好，如果ubantu用的虚拟机的话是不是可以省略一些步骤

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

染念 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。