分布式深度学习中的数据并行和模型并行

置顶

张小殊.

已于 2024-08-18 23:00:56 修改

阅读量6.1k

点赞数 105

分类专栏： # 分布式计算文章标签：人工智能深度学习分布式通信大模型训练并行训练 AIGC

于 2024-01-23 09:23:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_46009046/article/details/135556972

版权

🎀个人主页： https://zhangxiaoshu.blog.csdn.net
📢欢迎大家：关注🔍+点赞👍+评论📝+收藏⭐️，如有错误敬请指正!
💕未来很长，值得我们全力奔赴更美好的生活！

前言

对于深度学习模型的预训练阶段，海量的训练数据、超大规模的模型给深度学习带来了日益严峻的挑战，因此，经常需要使用多加速卡和多节点来并行化训练深度神经网络。目前，数据并行和模型并行作为两种在深度神经网络中常用的并行方式，分别针对不同的适用场景，有时也可将两种并行混合使用。本文对数据并行和模型并行两种在深度神经网络中常用的并行方式原理及其通信容量的计算方法进行介绍。

文章目录

前言
一、深度神经网络求解原理回顾
二、数据并行
三、模型并行
总结

一、深度神经网络求解原理回顾

深度神经网络是通过模仿生物大脑的神经元结构而设计的一种多层互连结构.在其训练过程中，数据输入神经网络经过网络的前向传播过程得到一个输出，然后对输出得预测值和真实值求相对误差将其作为损失函数，接着，对网络进行反向传播求得损失对权重参数得梯度信息，最后，使用得到的梯度信息对权重参数做梯度下降使得损失函数越来越小，如此反复这个过程，使得神经网络的预测结果变得越来越准确。
假设训练数据集为 $X=[x_1,x_2...x_N,]$ ，数据集经过前向传播后输出预测值 $f(x_i)$ ，真实值为 $y_i$ ，则损失函数可以表示为如下式所示。

$R_{emp}\left(f\right)=\frac{1}{N}\sum_{i=1}^{N}L\left(y_i,f\left(x_i\right)\right)$

其中， $L(\bullet)$ 为损失函数，它主要用于衡量预测值和真实值之间差异的大小，差异越小，说明模型的预测越准确。对于不同问题的求解，往往具有不同的形式。根据上式可以得到求解深度神经网络的最优化表达式如下式所示。

最低0.47元/天解锁文章

评论 28

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

张小殊. 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。