pytorch部署c++, 显存优化

最新推荐文章于 2025-02-26 20:35:10 发布

guomaotianjie

最新推荐文章于 2025-02-26 20:35:10 发布

阅读量397

点赞数 3

文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/guomaotianjie/article/details/137688769

版权

问题描述：实际工程化过程中，遇到显存问题，比如A模型占用显存1G，B模型占用显存2G，C模型占用显存3G，共占用6G，模型之间不存在并行推理情况，但是在初始化时候，使用warmup，会占用一定的显存，实际调用模型A+B+C，显存6给G,随着AI功能越来越多部署，会导致显存不足问题。

解决思路：使用完模型推理以后，把GPU缓存释放，同时不需要重新加载模型，可以即时模型推理。

解决方案：使用libtorch自带的缓存清理函数，c10::cuda::CUDACachingAllocator::emptyCache()

亲测有效，需要放在forward之后，或者放在封装调用接口函数之后，或者放在函数return之前。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

guomaotianjie

关注关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python工具方法 31 通过导入自定义dll实现显存释放

a486259的博客

06-21

796

博主研究了很多python的代码，发现都是无法释放显存的，或者说是释放显存不彻底。为此实现了自定义dll库，由python调用实现了释放显存。其中，自定义dll库导出给python使用可以参考vs2019导出动态链接库（dll）给其他vs项目及python代码使用_万里鹏程转瞬至的博客-CSDN博客通过vs可以导出动态链接库（dll文件）给其他c++项目、c#项目、python项目使用。本案例实现将vs项目导出为动态链接库，给c++项目与python项目使用。涉及全局变量、函数、自定义类的导出。项目创建完成

Pytorch网络训练模型转成C++推理执行

librahfacebook的博客

11-23

3820

显著图推理模型C++转换显著性检测网络模型是基于PyTorch深度学习框架进行搭建并参与训练的，在实际应用和生产中，由于要满足低延迟和严格部署要求，通常选用C++来进行推理过程。这里的显著图推理模型C++转换过程主要由以下几个步骤组成：将PyTorch网络模型转换为Torch Script，并序列化为一个文件；配置编译运行环境，在C++中加载模型参数，完成推理任务。系统环境（Windows）电脑系统版本：Windows 10 显卡版本：GeForce RTX 2070(显存8192MB) 编译

参与评论您还未登录，请先登录后发表或查看评论

libtorch释放显存：torch::NoGradGuard no_grad；

高恩阳的博客

05-24

701

torch::NoGradGuard 的主要作用就是在其作用域内禁用自动梯度计算，从而节省显存和计算资源。变量 no_grad 本身不需要被直接使用，它的作用是通过作用域来实现的。但是神经网络的output是释放不掉的，因为系统要计算梯度。一般使用.reset()就够了。

PyTorch 源码学习⑤：GPU 内存管理之深入分析 CUDACachingAllocator

weixin_43254181的博客

02-26

1242

本文对 PyTorch 原生的 GPU 内存管理机制进行了比较深入且全面的分析。

C++学习之内存的分配和初始化

zh1204190329的博客

10-06

6972

C++定义了2个运算符来分配和释放动态内存。new分配内存，delete释放内存。 1. 使用new动态分配和初始化对象在自由空间分配的内存是无名的，new返回一个指向分配的对象的指针。 int *pi = new int; // pi指向一个动态分配的、未初始化的无名对象默认情况下，动态分配的对象是默认初始化，内置类型（int, double）或组合类型（struct）的对象的值是未定义...

python pytorch 释放显存资源

u010454261的博客

11-23

5942

今天评测时，总莫名出现GPU OOM的问题。参考https://cloud.tencent.com/developer/article/1626387，发现了一种在变量使用完之后释放显存资源的方法. torch.cuda.empty_cache()

libtorch显存管理示例

a486259的博客

06-21

3153

在使用libtorch进行部署时，会面临显存不够用的情况。因此需要对显存的利用进行管理，对此研究libtorch的api，尝试进行显存管理。libtorch运行程序时，显存占用可以分为3块：模型参数占用显存、输入输出tensor占用显存、模型forword过程临时变量占用显存。使用cudaFree(tensor.data_ptr())可以释放掉tensor所占用的显存，也可以使用该函数释放掉模型参数所占用的显存。使用CUDACachingAllocator::emptyCache函数可以释放掉模型在forw

YOLOv5v7.0实例分割的TensorRT C++部署方案详解与优化技巧

最新发布

04-25

接着深入探讨了C++推理库的设计，特别是多模型并行处理、显存管理和线程安全机制。文中还分享了不同界面调用方式（如C#、Qt、MFC）的具体实现细节，以及硬件加速（如CUDA、NVENC/NVDEC）的最佳实践。最后提供了性能...

pytorch部署到硬件上

03-25

- 内存分析：监控显存/内存占用典型部署流程示例： 1. PyTorch模型 -> ONNX导出 -> TensorRT优化 -> NVIDIA Jetson部署 2. PyTorch模型 -> TorchScript -> LibTorch嵌入 -> 工业控制器 3. PyTorch模型 -> TVM编译...

yolov8使用tensorRT进行c++部署

01-29

5. **输入与输出处理**：在C++代码中，需要为输入图像分配内存，并将其数据复制到GPU显存。推理完成后，将结果从GPU拷贝回CPU，处理边界框和类别概率。 6. **性能调优**：TensorRT提供了一些API来进一步优化性能，...

Pytorch显存管理机制与显存占用分析方法

whaosoft143ai的博客

08-12

1473

我猜这样设计的目的是为了减少显存碎片，同时降低显存管理的复杂度。从理论上说，该 Segment 在分配后仍有 1MB 的空间等待继续分配，但如果显存管理机制将这 1MB 空间继续分配给其他 ≤1MB 的 tensor，那么在后续某个时刻当这 11MB 的 tensor 被删除，显存管理机制想要回收该 Segment 时，会由于该 Segment 被某些极小（相对 Segment 而言）tensor 部分占据而无法释放（显存释放见 2.2）。二次分配：将显存的申请与使用进行分离，即显存申请后会进行二次分配。

libtorch.zip

08-24

windows平台编译的32位的libtorch，基于vs2017版本编译。此版本不支持gpu。windows平台下cpu版的libtorch性能没有保障。有需求的可以尝试ncnn，mnn等平台。

pytorch 清楚缓存_Pytorch释放显存占用方式

weixin_29585753的博客

01-17

1万+

今天小编就为大家分享一篇Pytorch释放显存占用方式，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧如果在python内调用pytorch有可能显存和GPU占用不会被自动释放，此时需要加入如下代码torch.cuda.empty_cache()我们来看一下官方文档的说明Releases all unoccupied cached memory currently held by ...

mmdet3d+waymo 踩坑+验证环境正确性流程

热门推荐

ZLTJohn的博客

06-06

1万+

前面配mmdet3d的时候，由于使用了最新版mmdet3d v1.0.0rc2，导致使用官方的config和model，nuscenes数据集上的eval和train结果都不对，后面用了同学环境的版本才好了，但这个时候测waymo就会报错，找了很久bug，才发现新版cuda，旧版torch和tensorflow存在一定程度的冲突，以至于一起用显卡的时候会出现问题。有空交个issue。......

C/C++简单方法实现drop Caches——释放缓存

Swallow_he的博客

08-22

2412

可以看出，/proc/sys是一个虚拟文件系统，可以通过对它的读写操作做为与kernel实体间进行通信的一种手段。也就是说可以通过修改/proc中的文件，来对当前kernel的行为做出调整。那么我们可以通过调整/proc/sys/vm/drop_caches来释放内存。其默认数值为0. 向/proc/sys/vm/drop_caches中写入内容，会清理缓存。建议先执行sync（sync 命令将所...

undefined reference to `c10::Error::Error(c10::SourceLocation, std::__cxx11::basic_string

jiang_ming_的博客

04-18

4380

场景：在c++调用libtorch库的过程中 makefile 需要添加-lc10,和-ltorch error原因：本地编译环境为c++11,gcc版本为7.5，而下载的libtorch并不是c++11编译的，所以会导致库使用不正确解决方法: 重新下载libtorch，根据cuda和pytorch版本选在连接下载，参考这位博主博客：https://blog.csdn.net/weixin_43742643/article/details/114156298 我的模型是由pytorch1.

torch显存分析——如何在不关闭进程的情况下释放显存

weixin_44826203的博客

05-18

1万+

torch显存占用分析，以及如何在不关闭进程的情况下，利用代码释放不再占用的显存。

一文读懂 PyTorch 显存管理机制

zandaoguang的博客

04-08

4288

点击上方“视学算法”，选择加"星标"或“置顶”重磅干货，第一时间送达作者丨米阿罗@知乎（已授权）来源丨https://zhuanlan.zhihu.com/p/486360176编辑丨极市平台首发于踢翻炼丹炉：https://www.zhihu.com/column/c_1320691511223136256二次转载须经作者授权导读本文细致的对PyTorch 显存管理机...