总结：One weird trick for parallelizing convolutional neural networks

最新推荐文章于 2018-10-26 10:57:24 发布

zhouzimail

最新推荐文章于 2018-10-26 10:57:24 发布

阅读量2.4k

点赞数 1

分类专栏： cnn 文章标签： cnn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012648144/article/details/42811169

版权

cnn 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

以下是本人对这篇paper的一个理解，但感觉有些地方似乎有所缺漏，望有所感悟的朋友可以加以指点。谢谢

该文中，作者提出了两种并行方法，data parallelism和model parallelism.

data parallelism：不同的worker跑不同的数据样例。

model parallelism：不同的worker跑同一个model中的不同部分（如神经元）——主要解决单个woker内存不足以存放全连接层的所有参数问题，通过将参数分放到不同work，并将其输入 copy到这些worker来实现整个全连接层的计算。

而为了更大程度的进行并行化，针对卷积层和全连接层的不同性质，采用不同的并行方法。即在训练cnn模型的过程中，结合了两种并行方法。

下面是关于卷积层和全连接层的性质：

卷积层：包含90%~95%的计算，却只有大约5%的参数

全连接层：包含5-10%的计算，却有着95%的参数，

如图：

下面的作者的并行方案：

forward pass：

1.给不同的worker输入不同的数据样例，以batch为单位。

2.每个work各自计算卷积层。

3.对于全连接层的构建，作者给出了3中方案。

（1）K个worker，每个worker将其最后一层卷积层的activities发送给其他worker，那么每个worker将有K*batch size个examples，然后计算这些examples的全脸阶层。

（2）一个worker先将其最后一层卷积层的activites发送给其他所有的worker，然后所有的worker同时计算这个worker发送的数据的全连接层。在计算的同时另一个worke对其最后一层卷积层的activites进行广播。其它层同理。由此实现了计算和通信的重叠。

（3）所有的worker先发送1/K的examples给所有其他的workers，然后在像（2）一样处理数据。（这个我还不是很理解其中的优化原理）

backward pass：

1.每个worker计算其全连接层的gradients。

2.针对forward的3中不同方案，有3中不同的backward方案：

（1）对于方案（1），每个worker要将其计算的每个example的梯度发送回这个example进行forward pass的worker。

（2）对于方案（2），梯度的发送也如forward pass类似，实现通信和计算的重叠。

（3）类似于方案（2）。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
总结：One weird trick for parallelizing convolutional neural networks

该文中，作者提出了两种并行方法，data parallelism和model parallelism.data parallelism：不同的worker跑不同的数据样例。model parallelism：不同的worker跑同一个model中的不同部分（如神经元）而为了更大程度的进行并行化，针对卷积层和全连接层的不同性质，采用不同的并行方法。即在训练cnn模型的过程中，结合
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。