并行计算简介

条件漫步

于 2021-10-15 17:16:37 发布

阅读量704

点赞数 1

分类专栏： PyTorch 文章标签： pytorch

原文链接：https://github.com/datawhalechina/thorough-pytorch

版权

PyTorch 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

@创建于：2021.10.15

文章目录

在利用PyTorch做深度学习的过程中，可能会遇到数据量较大无法在单块GPU上完成，或者需要提升计算速度的场景，这时就需要用到并行计算。本节让我们来简单地了解一下并行计算的基本概念和主要实现方式，具体的内容会在课程的第二部分详细介绍。

1 为什么要做并行计算

我们学习PyTorch的目的就是可以编写我们自己的框架，来完成特定的任务。可以说，在深度学习时代，GPU的出现让我们可以训练的更快，更好。所以，如何充分利用GPU的性能来提高我们模型学习的效果，这一技能是我们必须要学习的。这一节，我们主要讲的就是PyTorch的并行计算。PyTorch可以在编写完模型之后，让多个GPU来参与训练。

2 CUDA是个啥

CUDA是我们使用GPU的提供商——NVIDIA提供的GPU并行计算框架。对于GPU本身的编程，使用的是CUDA语言来实现的。但是，在我们使用PyTorch编写深度学习代码时，使用的CUDA又是另一个意思。在PyTorch使用 CUDA表示要开始要求我们的模型或者数据开始使用GPU了。

在编写程序中，当我们使用了 cuda() 时，其功能是让我们的模型或者数据迁移到GPU当中，通过GPU开始计算。

3 做并行的方法

3.1 网络结构分布到不同的设备中(Network partitioning)

在刚开始做模型并行的时候，这个方案使用的比较多。其中主要的思路是，将一个模型的各个部分拆分，然后将不同的部分放入到GPU来做不同任务的计算。其架构如下：

在这里插入图片描述

这里遇到的问题就是，不同模型组件在不同的GPU上时，GPU之间的传输就很重要，对于GPU之间的通信是一个考验。但是GPU的通信在这种密集任务中很难办到。所有这个方式慢慢淡出了视野，

3.2 同一层的任务分布到不同数据中(Layer-wise partitioning)

第二种方式就是，同一层的模型做一个拆分，让不同的GPU去训练同一层模型的部分任务。其架构如下：

在这里插入图片描述

这样可以保证在不同组件之间传输的问题，但是在我们需要大量的训练，同步任务加重的情况下，会出现和第一种方式一样的问题。

3.3 不同的数据分布到不同的设备中，执行相同的任务(Data parallelism)

第三种方式有点不一样，它的逻辑是，我不再拆分模型，我训练的时候模型都是一整个模型。但是我将输入的数据拆分。所谓的拆分数据就是，同一个模型在不同GPU中训练一部分数据，然后再分别计算一部分数据之后，只需要将输出的数据做一个汇总，然后再反传。其架构如下：

在这里插入图片描述

这种方式可以解决之前模式遇到的通讯问题。

PS:现在的主流方式是数据并行的方式(Data parallelism)

4 参考链接

thorough-pytorch/第二章 PyTorch基础知识/2.3 并行计算简介.md

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

条件漫步 CSDN认证博客专家 CSDN认证企业博客

码龄10年

中国电信集团有限公司

194: 原创

3万+: 周排名

3万+: 总排名

95万+: 访问

: 等级

4736: 积分

145: 粉丝

668: 获赞

149: 评论

2924: 收藏

私信

关注

热门文章

分类专栏

AIGC 1篇
OCR 1篇
数字人 1篇
R 2篇
Flask web 1篇
Spark 2篇
统计知识 9篇
LeeCode 4篇
环境安装与设置 32篇
PyTorch 6篇
PyCharm 6篇
python 49篇
Tensorflow2.X / Keras 16篇
机器学习 30篇
时序预测 15篇
深度学习 14篇
NLP 9篇
联邦学习 1篇
技术与理论 5篇
Git 8篇
Windows + Office 6篇
杂文 8篇

最新评论

K-近邻算法： k-nearest neighbor classification (kNN) 详细介绍
zsc19911011: 公式（1）-（3）里面是减号不是加号
在R的 RGui中，使用devtools 安装trajeR
Z18312840216: 请问该怎么解决呢？
KeyBert关键词提取：原理、方法介绍、代码实践
qq_53107114: 有梯子也没用啊，urllib3.exceptions.ProxyError: ('Unable to connect to proxy', SSLError(SSLZeroReturnError(6, 'TLS/SSL connection has been closed (EOF) (_ssl.c:1135)')))
anaconda3创建虚拟环境时出现问题：Collecting package metadata (repodata.json): failed
m0_66732446: (base) PS C:\Users\aa> conda create -n test Channels: - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free - defaults Platform: win-64 Collecting package metadata (repodata.json): failed NoWritablePkgsDirError: No writeable pkgs directories configured. - D:\ProgramData\anaconda3\pkgs
anaconda3创建虚拟环境时出现问题：Collecting package metadata (repodata.json): failed
m0_66732446: (base) PS C:\Users\aa> conda config --show-sources ==> C:\Users\aa\.condarc <== envs_dirs: - D:\ProgramData\anaconda3\envs pkgs_dirs: - D:\ProgramData\anaconda3\pkgs channels: - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/win-64/ - http://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main/win-64 custom_channels: conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud msys2: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud bioconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud menpo: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud pytorch-lts: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud simpleitk: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud default_channels: - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2 show_channel_urls: True

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。