Cudnn占用大量内存问题

最新推荐文章于 2023-02-10 17:18:29 发布

Arnold-FY-Chen

最新推荐文章于 2023-02-10 17:18:29 发布

阅读量1.1k

点赞数

本文链接：https://blog.csdn.net/XCCCCZ/article/details/108890761

版权

NVIDIA 同时被 3 个专栏收录

15 篇文章 5 订阅

订阅专栏

Jetson

13 篇文章 3 订阅

订阅专栏

Jetson Nano

6 篇文章 0 订阅

订阅专栏

在部署3D图像识别模型时，发现模型裁剪后内存占用减少不明显，主要由cudnn初始化导致。通过NVIDIA提供的代码测量GPU内存，发现在调用cudnn API后，内存占用增加约550MB。这表明模型进一步优化的空间有限，总计约800MB内存用于模型、封装插件和cudnn。

摘要由CSDN通过智能技术生成

近来在对一个3D图像识别模型做部署裁剪时发现，做了一些有效的裁剪后，模型启动后占用的内存虽然减少了两三百个M，但是再继续对网络做裁剪缺减少不明显了，包含封装调用这个模型的deepstream插件在内始终占用800多个M，感觉很奇怪，于是花了些时间，捣腾琢磨网络本身的C++实现代码，找出哪些代码执行后占用了可观的内存，最后发现，其他跟训练有关的可减的都减了也没见省多少内存，但是模型启动的过程中，当cudnn的API被第一次调用时，启动有卡顿，同时看着内存一路不停飙升，把相关网络层的代码注释掉试试，结果后面的网络层中调用到cudnn的API时内存又照样飙升，看来cudnn需要占用很多内存。

为了确认这点，查找了NVIDIA论坛，发现有人也反应过类似问题，NVIDIA也提供了个测试代码用于确认cudnn占用了多少内存，这个代码挺有用的，既可以用于测量你的GPU的内存多大(对于服务器上的NVIDIA GPU，各种型号GPU的内存大小都是已知的，但是对于Jetson各种板子上的GPU，NVIDIA给出各种板子的参数时从来不告诉你上面的GPU的内存是多大，这点很奇怪，似乎怕竞争对手知道？有了下面的代码就可以测量出来了，Nano上的GPU的内存是3.9G多，也就是4G)，很显然这个代码可作为个小工具使用，记下来以便以后使用：

#include <stdio.h>
#include "cuda.h"
#include "cudnn.h"
#define ONE_MBYTE (1024*1024)

void printMemInfo()
{
    size_t free_byte ;
    size_t total_byte ;
    cudaError_t cuda_status = cudaMemGetInfo( &free_byte, &total_byte ) ;

    if ( cudaSuccess != cuda_status ){
        printf("Error: cudaMemGetInfo fails, %s\n", cudaGetErrorString(cuda_status));
        exit(1);
    }

    double free_db = (double)free_byte ;
    double total_db = (double)total_byte ;
    double used_db = total_db - free_db ;

    printf(" GPU memory usage: used = %.2f MB, free = %.2f MB, total = %.2f MB\n", used_db/ONE_MBYTE, free_db/ONE_MBYTE, total_db/ONE_MBYTE);
}

int main(){
    printf("Initial memory:");
    printMemInfo();

    cudnnHandle_t handle_;
    cudnnCreate(&handle_);
    printf("After cuDNN create:");
    printMemInfo();

    return 0;
}

假设文件名叫test_gpu_cudnn_mem.cu，用nvcc编译它，然后执行:

nvcc test_gpu_cudnn_mem.cu -lcudnn -o test_gpu
./test_gpu

可以看到类似下面的结果打印出来:

Initial memory: GPU memory usage: used = 1933.53 MB, free = 2022.68 MB, total = 3956.21 MB
After cuDNN create: GPU memory usage: used = 2484.90 MB, free = 1471.31 MB, total = 3956.21 MB

可以看到总的GPU内存是3.95621G也就是4G吧，cudnn的API被调用后，内存占用一下多了550M左右，运行多次可以看到虽然每次used数值不大一样，但是cudnn起来后，内存占用增加了550M左右。

通过这个小程序知道，我要裁剪的模型已经没什么好减的了，还有100多M的参数和封装调用这个模型的deepstream插件占用的内存，加上cudnn占用的550M多内存，总共800M左右，也就那样了。