python 神经网络多进程_Pytorch多进程最佳实践

最新推荐文章于 2022-03-27 22:13:32 发布

VIP文章 weixin_39722965

最新推荐文章于 2022-03-27 22:13:32 发布

阅读量343

点赞数

文章标签： python 神经网络多进程

预备知识

模型并行( model parallelism )：即把模型拆分放到不同的设备进行训练，分布式系统中的不同机器(GPU/CPU等)负责网络模型的不同部分 —— 例如，神经网络模型的不同网络层被分配到不同的机器，或者同一层内部的不同参数被分配到不同机器，如AlexNet的训练。

数据并行( data parallelism )：即把数据切分，输入到不同的机器有同一个模型的多个副本，每个机器分配到不同的数据，然后将所有机器的计算结果按照某种方式合并。

多进程最佳实践

torch.multiprocessing 是 Python 的 multiprocessing 多进程模块的替代品。它支持完全相同的操作，但对其进行了扩展，以便所有通过多进程队列 multiprocessing.Queue 发送的张量都能将其数据移入共享内存，而且仅将其句柄发送到另一个进程。

注意：

当张量 Tensor 被发送到另一个进程时，张量的数据和梯度 torch.Tensor.grad 都将被共享。

这一特性允许实现各种训练方法，如 Hogwild，A3C 或任何其他需要异步操作的训练方法。

一、CUDA 张量的共享

仅 Python 3 支持进程之间共享 CUDA 张量，我们可以使用 spawn 或forkserver 启动此类方法。 Python 2 中的 multiprocessing 多进程处理只能使用 fork 创建子进程，并且CUDA运行时不支持多进程处理。

警告：

CUDA API 规定输出到其他进程的共享张量，只要它们被这些进程使用时，都将持续保持有效。您应该小心并确保您共享的 CUDA 张量不会超出它应该的作用范围(

最低0.47元/天解锁文章

weixin_39722965

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 神经网络多进程_Pytorch多进程最佳实践

预备知识模型并行( model parallelism )：即把模型拆分放到不同的设备进行训练，分布式系统中的不同机器(GPU/CPU等)负责网络模型的不同部分 —— 例如，神经网络模型的不同网络层被分配到不同的机器，或者同一层内部的不同参数被分配到不同机器，如AlexNet的训练。数据并行( data parallelism )：即把数据切分，输入到不同的机器有同一个模型的多个副本，每个机器分配...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。