第八周【任务1】神经网络训练加速(笔记)

最新推荐文章于 2022-09-05 22:16:16 发布

西风瘦马1912

最新推荐文章于 2022-09-05 22:16:16 发布

阅读量168

点赞数

分类专栏：深度学习花书第7期文章标签：深度学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39236489/article/details/113668060

版权

深度学习花书第7期专栏收录该内容

22 篇文章 10 订阅

订阅专栏

训练加速主要针对并行加速

1. 基于数据的并行

1.1 模型平均

假设我们有10000条数据，分为10块，一块1000条数据。

又假设我们有10个GPU并行训练10块数据，那么我们要想方设法让他们彼此交流。假设10个GPU的参数矩阵都初始为 $w_{0}$ ，每个GPU都采用batch=100.

在第一轮训练之后，10个GPU有了10个不同的 $w_{1}$ ，分别传回到server。然后server做平均得到一个统一的 $\bar{w_{1}}$ 。然后统一返回平均好的 $\bar{w_{1}}$ 。

然后做第二个batch,算出10个 $w_{2}$ ，然后上传，平均，返回。

在这里插入图片描述

【注意，这个方案中，必须要等每一个GPU都算完同一个batch，上传所有10个参数矩阵后，再做平均。这样就产生了同步的瓶颈，所以要10个GPU要尽量性能相近，几乎同时得到batch训练结果】

1.2 同步随机梯度下降

同步随机梯度下降其实也使用了类似的思路，只不过每个client上传的是GPU在当前batch算出的梯度 $\Delta w_{1}$ ，10个梯度上传到server，然后做平均，返回平均的梯度 $\Delta \bar{w_{1}}$ ，再做更新。

在这里插入图片描述

1.3 异步随机梯度下降

在这里插入图片描述

异步梯度下降有所不同

还是以上server和clients的情况。在server给了10个GPU初始参数 $w_0$ 后，假设10个GPU从左到右依次计算性能下降。那么client1首先算出一个梯度，然后上传，server上的 $w_0$ 首先根据第一个梯度算出新的参数 $w_{11}$ ，然后把新算出的参数返回client1，开始在client1上第二个batch的训练。然后第二个client算出了第一个batch的梯度，然后上传，server上已经更新的参数 $w_{11}$ 就根据这个梯度进行更新，得到新的参数 $w_{12}$ ，然后把这个 $w_{12}$ 返回到client2，进行第二个batch的训练。继续依次让其他client上传各自的梯度，server都根据上一个client的梯度算好的参数继续更新。

这样就大大提高了更新速度，突破了同步更新的瓶颈。

2.基于模型的并行

不同GPU负责不同神经网络隐藏层之间的参数矩阵的运算。比如第一二层之间的参数由GPU1算，第二三层之间的参数由GPU2算。

但是用得不多。

西风瘦马1912

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第八周【任务1】神经网络训练加速(笔记)

训练加速主要针对并行加速1. 基于数据的并行1.1 模型平均假设我们有10000条数据，分为10块，一块1000条数据。又假设我们有10个GPU并行训练10块数据，那么我们要想方设法让他们彼此交流。假设10个GPU的参数矩阵都初始为w0w_{0}w0，每个GPU都采用batch=100.在第一轮训练之后，10个GPU有了10个不同的w1w_{1}w1，分别传回到server。然后server做平均得到一个统一的w1ˉ\bar{w_{1}}w1ˉ。然后统一返回平均好的w1ˉ\bar{w_{
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。