pytorch学习笔记2：GPU加速测试，含代码（亲测可用）

最新推荐文章于 2024-06-11 15:45:22 发布

跟着小冶一起干

最新推荐文章于 2024-06-11 15:45:22 发布

阅读量1.1w

点赞数 6

分类专栏： pytorch 学习文章标签： python 人工智能深度学习算法

本文链接：https://blog.csdn.net/qq_36162036/article/details/107407928

版权

pytorch 学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

GPU加速原理

这里默认你说的gpu加速是指NVIDIA的cuda加速，CPU是中央处理单元，gpu是图形处理单元简单的说，gpu由上千个流处理器(core)作为运算器。执行采用单指令多线程(SIMT)模式。在训练网络中，其实大量的运算资源都消耗在了数值计算上面，大部分网络训练的过程都是1.计算loss，2.根据loss求梯度，3.再根据梯度更新参数（梯度下降原理）。无论在GPU还是CPU中，都是不断重复123步。但是由于CPU是通用计算单元（并不擅长数值运行），而GPU特长是图像处理（数值计算）。所以GPU更加适合训练网络，从而起到加速效果。

CPU和GPU设计区别

CPU和GPU之所以大不相同，是由于其设计目标的不同，它们分别针对了两种不同的应用场景。CPU需要很强的通用性来处理各种不同的数据类型，同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得CPU的内部结构异常复杂。而GPU面对的则是类型高度统一的、相互无依赖的大规模数据和不需要被打断的纯净的计算环境。
CPU和GPU的架构：
在这里插入图片描述
其中：图片来自nVidia CUDA文档。其中绿色的是计算单元，橙红色的是存储单元，橙黄色的是控制单元。GPU采用了数量众多的计算单元和超长的流水线，但只有非常简单的控制逻辑并省去了Cache。而CPU不仅被Cache占据了大量空间，而且还有有复杂的控制逻辑和诸多优化电路，相比之下计算能力只是CPU很小的一部分。

pytorch中GPU加速测试

import torch
import time
from torch import autograd
#GPU加速
print(torch.__version__)
print(torch.cuda.is_available())

a=torch.randn(10000,1000)
b=torch.randn(1000,10000)
print(a)
print(b)
t0=time.time()
c=torch.matmul(a,b)
t1=time.time()

print(a.device,t1-t0,c.norm(2))

device=torch.device('cuda')
print(device)
a=a.to(device)
b=b.to(device)

t0=time.time()
c=torch.matmul(a,b)
t2=time.time()
print(a.device,t2-t0,c.norm(2))


t0=time.time()
c=torch.matmul(a,b)
t2=time.time()

print(a.device,t2-t0,c.norm(2))

输出pytor的版本，是否支持加速及三次计算的耗时，其中第一次是CPU计算，第三次是GPU计算。
在这里插入图片描述

跟着小冶一起干

关注

6
点赞
踩
22

收藏

觉得还不错? 一键收藏
4
评论
pytorch学习笔记2：GPU加速测试，含代码（亲测可用）

GPU加速原理这里默认你说的gpu加速是指NVIDIA的cuda加速，CPU是中央处理单元，gpu是图形处理单元简单的说，gpu由上千个流处理器(core)作为运算器。执行采用单指令多线程(SIMT)模式。在训练网络中，其实大量的运算资源都消耗在了数值计算上面，大部分网络训练的过程都是1.计算loss，2.根据loss求梯度，3.再根据梯度更新参数（梯度下降原理）。无论在GPU还是CPU中，都是不断重复123步。但是由于CPU是通用计算单元（并不擅长数值运行），而GPU特长是图像处理（数值计算）。所以GP
复制链接

扫一扫