【半精度】Pytorch模型加速和减少显存

最新推荐文章于 2025-02-25 18:29:00 发布

木盏

最新推荐文章于 2025-02-25 18:29:00 发布

阅读量3.4w

点赞数 49

分类专栏： python Pytorch那些事儿文章标签： cuda gpu pytorch 模型加速模型压缩

本文链接：https://blog.csdn.net/leviopku/article/details/112472123

版权

python 同时被 2 个专栏收录

134 篇文章

订阅专栏

Pytorch那些事儿

35 篇文章

订阅专栏

如标题所示，这是PyTorch框架提供的一个方便好用的trick：开启半精度。直接可以加快运行速度、减少GPU占用，并且只有不明显的accuracy损失。

之前做硬件加速的时候，尝试过多种精度的权重和偏置。在FPGA里用8位精度和16位精度去处理MNIST手写数字识别，完全可以达到差不多的准确率，并且可以节省一半的资源消耗。这一思想用到GPU里也是完全可以行通的。即将pytorch默认的32位浮点型都改成16位浮点型。

只需：

model.half()

注意1：这一步要放在模型载入GPU之前，即放到model.cuda()之前。大概步骤就是：

model.half()
model.cuda()
model.eval()

注意2：模型改为半精度以后，输入也需要改成半精度。步骤大概是：

model.half()
model.cuda()
model.eval()

img = torch.from_numpy(image).float()
img = img.cuda()
img = img.half()

res = model(img)

本地做的测试结果为：速度提升25%~35%，显存节约40~60%，而accuracy几乎没变。仅供大家参考。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

木盏

关注关注

49
点赞
踩
123

收藏

觉得还不错? 一键收藏
11
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

pytorch 半精度half()

jacke121的专栏

08-27

3282

pytorch 半精度hlaf()

FP16、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析

最新发布

gma999的博客

02-25

531

源码分析

使用半精度，提升pytorch推理性能

大鱼的博客

04-21

7441

原生的torch是float32的，我们可以借鉴模型量化的思想将其变成float16，而且pytorch自身就定义了半精度的tensor 假设我训练的一个模型为model，我们在运算的时候直接将模型转成半精度的模型，怎么做的呢？直接使用model.half()就行 model.half() model.cuda() 假设我们有个float32的tensor的变量img，为了使用半精度的模型，同样需要将其输入转成HalfTensor img=img.type(torch.HalfTensor)..

pytorch，半精度判断，半精度和全精度之间的转化。

AI浩

08-22

1210

在PyTorch中，判断一个张量（Tensor）x是否是半精度（即类型）的，你可以使用x.dtype属性来获取张量的数据类型，然后将其与进行比较。在这个例子中，x被创建为半精度（）的张量，而y被创建为全精度（）的张量。通过比较它们的dtype属性与，我们可以判断它们是否是半精度的。dtype属性返回的是一个对象，它是PyTorch中用于表示数据类型的一个枚举类。通过将dtype属性与（或任何其他值）进行比较，你可以判断任何PyTorch张量的数据类型。

测试torch方法是否支持半精度

豆芽菜

04-20

825

并不是所有的torch方法都支持半精度计算。测试半精度计算需要在cuda上，cpu不支持半精度。因此首先需要创建半精度变量，并放到cuda设备上。部分方法在低版本不支持，在高版本支持半精度计算，部分方法一直不支持。例如行列式计算torch.linalg.det()不支持半精度。d = a.det()是半精度计算，出错，***not implemented for 'Half'c = b.det()是单精度计算，正常；

pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed模型训练

胖胖大海的博客

11-17

5899

pytorch单精度、半精度、混合精度、单卡、多卡（DP / DDP）、FSDP、DeepSpeed（环境没搞起来）模型训练代码，并对比不同方法的训练速度以及GPU内存的使用

YOLOv5 detect.py开启半精度推理

qq_45834106的博客

01-18

1215

由于是使用了detect.py文件进行推理的，无法判断，现在想到的办法是去查看测试得到的CSV文件。根据CSV文件所展示的，开启半精度之后预测的概率确实是会降低的。我这里分别使用YOLOv5s和YOLOv5x进行了一下测试：开启半精度预测之后，根据下面两个表格可以看出，模型越大，检测的图片越多，那么半精度推理所提高的速度也就越多。上面这个博客应该是没有问题的，但是我现在环境没装好，还没办法实践，等环境装好后会补充测试。但是在我装环境的过程中我发现，在detect.py中的模型参数包含了开启半精度的选项。

【深度学习基础】Pytorch 半精度（混合精度 AMP）训练

qq_42200733的博客

07-25

1028

主要探讨混合精度训练在深度学习中的应用。通过使用PyTorch内置的`torch.cuda.amp`库，展示如何轻松地将单精度训练转换为更快速、更节省内存的半精度训练。文章提供了实际的代码示例，希望能帮助读者在自己的模型上实现这一技术。

如何使用 PyTorch 进行半精度、混(合)精度训练

qq_44089890的博客

05-03

9677

NVIDIA深度学习加速库Apex是一个用于PyTorch的开源混合精度训练工具包，旨在加速训练并减少内存使用。Apex提供了许多用于混合精度训练的工具，包括半精度浮点数（float16）支持、动态精度缩放、分布式训练等功能。Apex中最为常用的功能是半精度浮点数支持。半精度浮点数通常用于加速深度学习训练，并且可以显著减少GPU内存的使用。Apex提供了一种简单的方法来实现半精度训练，只需要在模型定义和训练循环中添加几行代码即可。

PyTorch模型加速指南：5个技巧提升训练效率

![PyTorch模型加速指南：5个技巧提升训练效率]...随着AI应用领域的不断拓宽，如何有效加速PyTorch模型成为了研究和工程实践中的一个热门话题。模型加速不仅仅意味着缩短了模型的

PyTorch混合精度训练：减少内存与加速模型训练的6种方法

[PyTorch混合精度训练：减少内存与加速模型训练的6种方法](https://img-blog.csdnimg.cn/img_convert/9e92c3a4230ac849fd537cf2af7288bb.png) # 1. PyTorch混合精度训练概述在深度学习模型的训练过程中，精度是...

pytorch模型加速

shuijinghua的博客

06-18

7810

一个关键的原则：”仅仅在权重更新的时候使用fp32,耗时的前向和后向运算都使用fp16.",其中的一个技巧是，在反向计算开始前，将dloss乘上一个scale,人为变大，权重更新前，除去scale,恢复正常值。目的是为了减小激活gradient下溢出的风险。 fp16:半精度 如何在pytorch中使用fp16混合精度训练呢？ nn.Module中的half()方法将模型中的float32转化为float16,实现的原理是遍历所有tensor,而float32和float16都是tensor的属性，也

float 转fp16（half（））调试踩坑记录

weixin_43480227的博客

08-22

1551

模式1. 训练阶段将barc 模型转换为fp16，以减少显存开销。模式2. 推理阶段直接将权重转换为fp16/int8。2.加载预训练权重，修改为half。1.修改model.half()pytoch常见错误。

pytorch 半精度，提升pytorch推理性能

jacke121的专栏

08-20

1万+

原生的torch是float32的，我们可以借鉴模型量化的思想将其变成float16，而且pytorch自身就定义了半精度的tensor 假设我训练的一个模型为model，我们在运算的时候直接将模型转成半精度的模型，怎么做的呢？直接使用model.half()就行 model.half() model.cuda() 假设我们有个float32的tensor的变量 img，为了使用半精度的模型，同样需要将其输入转成HalfTensor img=img.type(torch.HalfTensor).cud

Pytorch 容器 - 5. Module中的参数转换/转移：cpu(), cuda(), float(), double(), half()

Aaron_neil的博客

04-21

1302

如果模型要在gpu上进行训练，需要再将参数放到优化器之前调用该函数进行设备转化。对于模型的cpu()函数，比如 model.cpu()，只是把。将模型中所有parameters和buffers进行类型转换。parameters 和 buffers。

pytorch显存不足时的解决办法

weixin_43914632的博客

10-14

8417

将float32转化为float16，是最有效的降低显存占用的方式，可以降低一半左右的显存占用。实现方式：首先在代码的最前面加上 torch.set_default_dtype(torch.float16) 这行代码将这个程序内部所有的float变量转化为float32。此时如果直接运行程序会出现输入为float参数为floathalf的错误报告。然后将输入改变为floathalf即可代码如下 inputs = inputs.type(torch.float16) ...