CUDA编程部署AI算法模型学习笔记

Ryan_BME

已于 2024-06-27 10:55:52 修改

阅读量322

点赞数 2

分类专栏： AI算法-C++学习笔记文章标签：人工智能算法学习 c++

于 2024-06-27 10:50:46 首次发布

本文链接：https://blog.csdn.net/linyizhoumx/article/details/140007562

版权

AI算法-C++学习笔记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

CUDA编程部署AI算法模型

在C++ CUDA编程中部署AI算法模型，通常涉及以下几个步骤：

模型导出：将训练好的AI模型导出为可以在C++中加载的格式，如ONNX、TensorRT等。
CUDA环境配置：确保CUDA和cuDNN已经正确安装，并且环境变量配置正确。
模型加载与推理：使用C++和CUDA库加载模型并进行推理。

下面是一个简单的示例，展示如何在C++ CUDA编程中使用TensorRT进行AI模型推理。假设我们已经有一个训练好的ONNX模型。

1. 安装依赖

确保你已经安装了以下依赖：

CUDA
cuDNN
TensorRT

2. 导出模型

将训练好的模型导出为ONNX格式。

3. 编写C++代码

创建一个C++文件（例如main.cpp），并编写以下代码：

#include <NvInfer.h>
#include <NvOnnxParser.h>
#include <cuda_runtime_api.h>
#include <iostream>
#include <fstream>
#include <vector>

// 使用命名空间
using namespace nvinfer1;
using namespace nvonnxparser;

// 日志记录器
class Logger : public ILogger {
public:
    void log(Severity severity, const char* msg) noexcept override {
        if (severity != Severity::kINFO) {
            std::cout << msg << std::endl;
        }
    }
} gLogger;

// 加载模型
ICudaEngine* loadModel(const std::string& modelFile) {
    // 创建TensorRT运行时
    IRuntime* runtime = createInferRuntime(gLogger);
    if (!runtime) {
        std::cerr << "Failed to create TensorRT Runtime" << std::endl;
        return nullptr;
    }

    // 创建解析器
    std::ifstream modelStream(modelFile, std::ios::binary);
    if (!modelStream) {
        std::cerr << "Failed to open model file" << std::endl;
        return nullptr;
    }
    modelStream.seekg(0, std::ios::end);
    const int modelSize = modelStream.tellg();
    modelStream.seekg(0, std::ios::beg);
    std::vector<char> modelData(modelSize);
    modelStream.read(modelData.data(), modelSize);
    modelStream.close();

    // 解析模型
    IHostMemory* modelMem = runtime->deserializeCudaEngine(modelData.data(), modelSize, nullptr);
    if (!modelMem) {
        std::cerr << "Failed to deserialize CUDA engine" << std::endl;
        return nullptr;
    }

    // 创建引擎
    ICudaEngine* engine = modelMem->engine();
    modelMem->destroy();
    return engine;
}

// 推理
void infer(ICudaEngine* engine, const std::vector<float>& inputData) {
    IExecutionContext* context = engine->createExecutionContext();
    if (!context) {
        std::cerr << "Failed to create execution context" << std::endl;
        return;
    }

    // 分配设备内存
    float* d_input;
    float* d_output;
    cudaMalloc(&d_input, inputData.size() * sizeof(float));
    cudaMalloc(&d_output, 1000 * sizeof(float)); // 假设输出大小为1000

    // 复制输入数据到设备
    cudaMemcpy(d_input, inputData.data(), inputData.size() * sizeof(float), cudaMemcpyHostToDevice);

    // 执行推理
    const int inputIndex = engine->getBindingIndex("input");
    const int outputIndex = engine->getBindingIndex("output");
    void* bindings[] = {d_input, d_output};
    context->executeV2(bindings);

    // 复制输出数据到主机
    std::vector<float> outputData(1000);
    cudaMemcpy(outputData.data(), d_output, 1000 * sizeof(float), cudaMemcpyDeviceToHost);

    // 打印输出
    for (int i = 0; i < 10; ++i) {
        std::cout << outputData[i] << " ";
    }
    std::cout << std::endl;

    // 释放资源
    cudaFree(d_input);
    cudaFree(d_output);
    context->destroy();
}

int main() {
    // 加载模型
    ICudaEngine* engine = loadModel("model.onnx");
    if (!engine) {
        std::cerr << "Failed to load model" << std::endl;
        return -1;
    }

    // 准备输入数据
    std::vector<float> inputData(224 * 224 * 3); // 假设输入大小为224x224x3
    for (int i = 0; i < inputData.size(); ++i) {
        inputData[i] = static_cast<float>(i % 255) / 255.0f;
    }

    // 推理
    infer(engine, inputData);

    // 释放资源
    engine->destroy();

    return 0;
}

4. 编译和运行

编写CMakeLists.txt文件来编译代码：

cmake_minimum_required(VERSION 3.10)
project(TensorRTExample)

find_package(TensorRT REQUIRED)
find_package(CUDA REQUIRED)

include_directories(${TensorRT_INCLUDE_DIRS})
include_directories(${CUDA_INCLUDE_DIRS})

add_executable(main main.cpp)

target_link_libraries(main ${TensorRT_LIBRARIES} ${CUDA_LIBRARIES})

然后使用CMake进行编译：

mkdir build
cd build
cmake ..
make

最后运行生成的可执行文件：

./main

这个示例展示了如何在C++ CUDA编程中使用TensorRT进行AI模型推理。你可以根据具体需求调整代码，例如更改输入输出大小、优化内存管理等。

Ryan_BME

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
CUDA编程部署AI算法模型学习笔记

这个示例展示了如何在C++ CUDA编程中使用TensorRT进行AI模型推理。你可以根据具体需求调整代码，例如更改输入输出大小、优化内存管理等。下面是一个简单的示例，展示如何在C++ CUDA编程中使用TensorRT进行AI模型推理。假设我们已经有一个训练好的ONNX模型。将训练好的模型导出为ONNX格式。创建一个C++文件（例如。
复制链接

扫一扫

专栏目录