35 分布式训练【动手学深度学习v2】

hlllllllhhhhh

已于 2023-03-14 16:43:27 修改

阅读量89

点赞数

分类专栏：动手学深度学习文章标签：深度学习人工智能

于 2023-03-14 16:43:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hlllllllhhhhh/article/details/129531532

版权

动手学深度学习专栏收录该内容

21 篇文章 0 订阅

订阅专栏

文章讨论了分布式计算在数据处理中的应用，强调了数据并行运算和GPU性能的关系。文中指出，通过减少跨机器通讯和利用同步/异步SGD优化训练过程，可以提高效率。增大batch_size会影响计算时间，但能减少通信次数。同时提到，forward阶段通常不并行，而backward阶段才开始并行计算，小批量数据多样性有助于提升性能。

摘要由CSDN通过智能技术生成

目录

一、分布式计算

一、分布式计算

1、数据并行运算

2、与GPU性能上的不同，少在机器上做通讯

3、减少跨机器的通讯，例子——计算一个小批量

每个计算服务器读取小批量中的一块
进一步将数据切分到每个GPU上
每个worker从参数服务器那里获取模型参数
复制到每个GPU上
每个GPU计算梯度
将所有GPU上的梯度求和
梯度传回服务器
每个服务器对梯度求和，并更新参数

4、每个worker都是同步计算一个批量，同步SGD

5、在同步SGD的情况下，计算和通信没有办法重叠的。异步SGD才允许计算和通信并行

增加batch_size影响的是 t1 ，t1会变大，t2不变，所以我们算一个足够大的batch_size，使得 t1 远远大于 t2

n是GPU数量6

6、因为是batch个样本算平均梯度，一个epoch的样本数固定，所以batch越大更新越慢

7、

8、

二、问题

弹幕记笔记：小批量里数据多样性强，性能好
在forward的时候是不能并行的，在backward的时候才开始并行

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。