编译支持使用GPU的NCNN

最新推荐文章于 2024-02-20 12:45:04 发布

Arnold-FY-Chen

最新推荐文章于 2024-02-20 12:45:04 发布

阅读量4.7k

点赞数 2

分类专栏：深度学习 Jetson 文章标签： vlkan ncnn glslang 深度学习 jetson

本文链接：https://blog.csdn.net/XCCCCZ/article/details/120575511

版权

深度学习同时被 2 个专栏收录

38 篇文章 13 订阅

订阅专栏

Jetson

13 篇文章 3 订阅

订阅专栏

我个人的使用经验感觉，NCNN最大的优势在于运行模型推理时使用内存非常少，一个超轻量级的模型只需几十M的内存，而TensorRT下同一模型则需要几百个M的内存！NCNN这个优点是NVIDIA的TensorRT不能比的，TensorRT的优势就是模型推理时速度基本稳定，当然也比较快，FP32和FP16模式下占用内存和推理速度都有差异，NCNN下轻量级模型的FP32和FP16模式感觉推理速度和占用内存差异不明显，使用NCNN进行模型推理的速度有时波动有点大，但是比较占用的总内存很小，速度有时也不比使用TensorRT推理慢，所以在边缘端使用有的轻量级模型，NCNN还是有一定优势的，如果是重量级模型并且内存资源充裕只看重推理速度，那么使用TensorRT是更好的选择，如果不那么注重推理速度但非常在意对内存的占用，那么NCNN是个不错的选择，我们在Nano这样的小板子上要同时跑三四个模型，所以不得不一一实验，针对不同的模型的特点选择使用TensorRT或者NCNN.

编译NCNN首先保证下面的环境支持包都已安装，否则执行下面的命令安装:

sudo apt install build-essential git cmake libprotobuf-dev protobuf-compiler libvulkan-dev vulkan-utils libopencv-dev

如果上面安装的vulkan只有so库文件没有相关头文件，x86上可以直接到下载对应的vulkan sdk，Jetson上可以自己下载源码编译和制作vulkan sdk，参见 https://github.com/KhronosGroup/Vulkan-Loader.git

sudo apt-get update && sudo apt-get install git build-essential libx11-xcb-dev libxkbcommon-dev libwayland-dev libxrandr-dev cmake
git clone -b v1.2.141 https://github.com/KhronosGroup/Vulkan-Loader.git
cd Vulkan-Loader && mkdir build && cd build
../scripts/update_deps.py
cmake -DCMAKE_BUILD_TYPE=Release -DVULKAN_HEADERS_INSTALL_DIR=$(pwd)/Vulkan-Headers/build/install ..
make -j

cd Vulkan-Headers
ln -s ../loader lib

注意上面的最后两步，没有这两步在下面编译ncnn时是会报错的，因为前面的jetson上的编译并没有按照规范的vulkan sdk的目录结构生成和存放文件，所以需要手工将../loader链接到lib目录，才能保证lib和include都在同一级目录下，然后在下面设置VULKAN_SDK环境变量时设置为他们的父目录的路径即可。

然后，x86上假如你下载的sdk解压在/data/workspace/1.2.189，做如下环境变量VULKAN_SDK的设置:

export VULKAN_SDK=/data/workspace/vulkan-1.2.189/x86_64

Jetson上假如你编译制作的vulkan sdk文件的路径是/home/ubuntu/Vulkan-Loader/build/Vulkan-Headers，则设置环境变量VULKAN_SDK如下:

export VULKAN_SDK=/home/ubuntu/Vulkan-Loader/build/Vulkan-Headers

然后下载ncnn的代码:

git clone https://github.com/Tencent/ncnn

cd ncnn

一定要记得执行下面这步下载glslang和pybind等相关子目录下的源码:

git submodule update --init

然后手工修改CMakeLists.txt或者在命令行中增加相关define来打开vulkan:

option(NCNN_VULKAN "vulkan compute support" ON)

ncnn编译时默认编译成静态库libncnn.a，如果想编译成动态库，则修改打开这个选项:

option(NCNN_SHARED_LIB ON)

如果你是在x86上交叉编译用于jetson上的程序，还得记得设置这一项:

option(CMAKE_TOOLCHAIN_FILE "" ../toolchains/jetson.toolchain.cmake)

或者在执行命令时设置：

mkdir build && cd build
cmake -DCMAKE_TOOLCHAIN_FILE=../toolchains/jetson.toolchain.cmake -DCMAKE_BUILD_TYPE=Release -DNCNN_SHARED_LIB=ON -DNCNN_VULKAN=ON -DNCNN_BUILD_EXAMPLES=ON ..
make -j$(nproc)

如果是直接在jetson上编译，只需执行:

mkdir build && cd build
cmake -DCMAKE_BUILD_TYPE=Release -DNCNN_SHARED_LIB=ON -DNCNN_VULKAN=ON -DNCNN_BUILD_EXAMPLES=ON ..
make

编译时NCNN_BUILD_EXAMPLES打开了，所以编译完就可以执行build下的examples目录下的可执行程序。基于ncnn开发自己的跑模型的应用程序时，只需编译时包含相关头文件和链接libncnn.a或者libncnn.so即可。

如果程序需要用到glslang，记得编译前设置GLSLANG相关option即可，编译和链接时也得包含glslang相关头文件和链接相关库文件。

Arnold-FY-Chen

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
编译支持使用GPU的NCNN

我个人的使用经验感觉，NCNN最大的优势在于运行模型推理时使用内存非常少，一个超轻量级的模型只需几十M的内存，而TensorRT下同一模型则需要几百个M的内存！NCNN这个优点是NVIDIA的TensorRT不能比的，TensorRT的优势就是模型推理时速度基本稳定，当然也比较快，FP32和FP16模式下占用内存和推理速度都有差异，NCNN下轻量级模型的FP32和FP16模式感觉推理速度和占用内存差异不明显，使用NCNN进行模型推理的速度有时波动有点大，但是比较占用的总内存很小，速度有时也不比...
复制链接

扫一扫