【YOLOX训练部署】YOLOX ONNX 使用GPU进行推理

YOLOX训练自己的VOC数据集

【YOLOX训练部署】YOLOX训练自己的VOC数据集_乐亦亦乐的博客-CSDN博客

将自己训练的YOLOX权重转化成ONNX 并进行推理

【YOLOX训练部署】将自己训练的YOLOX权重转化成ONNX 并进行推理_乐亦亦乐的博客-CSDN博客

ONNX 在 CPU 上推理速度较慢,对比GPU效果,使用GPU对onnx进行推理。具体操作:

首先卸载onnxruntime,并安装onnxruntime-gpu

pip uninstall onnxruntime
pip install onnxruntime-gpu

# 注意到onnx官网查看onnx版本与cuda版本的对应关系

还是使用【YOLOX训练部署】将自己训练的YOLOX权重转化成ONNX 并进行推理_乐亦亦乐的博客-CSDN博客

中的onnx_inference_video.py 进行推理。

运行:

python onnx_inference_video.py -m /media/liqiang/新加卷/YOLOX/my_yolox_s.onnx -i ./4.mp4 -o /media/liqiang/新加卷/YOLOX -s 0.3 --input_shape 640,640

会出现如下问题:

解决:修改代码

session = onnxruntime.InferenceSession(
        args.model, providers=['TensorrtExecutionProvider', 'CUDAExecutionProvider', 'CPUExecutionProvider'])

 完整推理代码:

'''
Descripttion: 
version: 
Author: LiQiang
Date: 2022-01-01 09:39:19
LastEditTime: 2022-01-01 10:23:07
'''
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# Copyright (c) Megvii, Inc. and its affiliates.

import argparse
import os

import cv2
import numpy as np

import onnxruntime

from yolox.data.data_augment import preproc as preprocess
# from yolox.data.datasets import COCO_CLASSES
from yolox.data.datasets import VOC_CLASSES
from yolox.utils import mkdir, multiclass_nms, demo_postprocess, vis


def make_parser():
    parser = argparse.ArgumentParser("onnxruntime inference sample")
    parser.add_argument(
        "-m",
        "--model",
        type=str,
        default="yolox.onnx",
        help="Input your onnx model.",
    )
    parser.add_argument(
        "-i",
        "--video_path",
        type=str,
        # default='test_image.png',
        help="Path to your input image.",
    )
    parser.add_argument(
        "-o",
        "--output_dir",
        type=str,
        default='demo_output',
        help="Path to your output directory.",
    )
    parser.add_argument(
        "-s",
        "--score_thr",
        type=float,
        default=0.3,
        help="Score threshould to filter the result.",
    )
    parser.add_argument(
        "--input_shape",
        type=str,
        default="640,640",
        help="Specify an input shape for inference.",
    )
    parser.add_argument(
        "--with_p6",
        action="store_true",
        help="Whether your model uses p6 in FPN/PAN.",
    )
    return parser


if __name__ == '__main__':
    args = make_parser().parse_args()
    input_shape = tuple(map(int, args.input_shape.split(',')))
    # origin_img = cv2.imread(args.image_path)
    session = onnxruntime.InferenceSession(
        args.model, providers=['TensorrtExecutionProvider', 'CUDAExecutionProvider', 'CPUExecutionProvider'])
    cap = cv2.VideoCapture(args.video_path)
    while True:
        ret, origin_img = cap.read()

        img, ratio = preprocess(origin_img, input_shape)

        ort_inputs = {session.get_inputs()[0].name: img[None, :, :, :]}
        output = session.run(None, ort_inputs)
        predictions = demo_postprocess(output[0], input_shape, p6=args.with_p6)[0]

        boxes = predictions[:, :4]
        scores = predictions[:, 4:5] * predictions[:, 5:]

        boxes_xyxy = np.ones_like(boxes)
        boxes_xyxy[:, 0] = boxes[:, 0] - boxes[:, 2]/2.
        boxes_xyxy[:, 1] = boxes[:, 1] - boxes[:, 3]/2.
        boxes_xyxy[:, 2] = boxes[:, 0] + boxes[:, 2]/2.
        boxes_xyxy[:, 3] = boxes[:, 1] + boxes[:, 3]/2.
        boxes_xyxy /= ratio
        dets = multiclass_nms(boxes_xyxy, scores, nms_thr=0.45, score_thr=0.1)
        if dets is not None:
            final_boxes, final_scores, final_cls_inds = dets[:, :4], dets[:, 4], dets[:, 5]
            origin_img = vis(origin_img, final_boxes, final_scores, final_cls_inds,
                             conf=args.score_thr, class_names=VOC_CLASSES)
        cv2.imshow('result', origin_img)
        c = cv2.waitKey(1)
        if c == 27:
            break
        # mkdir(args.output_dir)
        # output_path = os.path.join(args.output_dir, args.image_path.split("/")[-1])
        # cv2.imwrite(output_path, origin_img)

重新运行:

python onnx_inference_video.py -m /media/liqiang/新加卷/YOLOX/my_yolox_s.onnx -i ./4.mp4 -o /media/liqiang/新加卷/YOLOX -s 0.3 --input_shape 640,640

可以看出速度明显提升!

ONNX Runtime 是一种高性能、可移植的机器学习推理框架,旨在提供统一的API来支持多种模型格式,并在各种硬件平台上高效运行。它特别适合于在CPU、GPU甚至其他加速器上进行模型部署。 ### ONNX Runtime 支持 GPU 推理 ONNX Runtime 提供了对GPU的支持,通过充分利用CUDA技术,可以显著提升模型推理速度,特别是在处理大量数据或对性能有高要求的应用场景下。以下是ONNX Runtime如何利用GPU进行推理的一些关键点: 1. **模型加载**:首先需要将模型加载到ONNX Runtime中。对于GPU模型,这通常意味着模型本身已经被优化以便在GPU上运行。 2. **设备配置**:在创建ONNX Runtime会话时,你可以指定使用GPU作为计算资源。例如,在Python环境中,你可以通过设置`execution_providers=['CUDAExecutionProvider']`来指示ONNX Runtime优先使用GPU执行推理任务。 3. **内存管理**:ONNX Runtime会在GPU上分配必要的内存空间用于存储输入数据、中间结果以及最终输出。这包括预处理输入数据以适应模型的要求,以及处理从GPU返回的结果。 4. **并行化和优化**:通过使用GPUONNX Runtime能够并行处理大量的矩阵运算和其他数学操作,这对于深度学习模型中的卷积层、全连接层等具有很高的计算密集型特性来说尤为重要。 5. **性能监控**:为了提高效率,ONNX Runtime会自动调整和优化GPU使用情况,比如动态调整线程数以匹配当前的任务负载,以及使用高级的并行算法来减少延迟时间和提高吞吐量。 6. **兼容性和灵活性**:ONNX Runtime设计的目的是跨平台,这意味着它可以很好地支持不同的GPU架构,如NVIDIA、AMD和Intel的最新GPU系列,并且随着新硬件的发展而持续更新优化策略。 ### 应用实例 假设你需要在基于ONNX的机器学习项目中使用GPU推理,步骤大致如下: ```python import onnxruntime as ort # 加载ONNX模型文件 model_path = 'path_to_your_model.onnx' session = ort.InferenceSession(model_path) # 获取可用的执行提供者,优先选择GPU providers = ['CUDAExecutionProvider', 'CPUExecutionProvider'] ort_session = ort.InferenceSession(model_path, providers=providers) ``` 在上述示例中,`CUDAExecutionProvider`表示我们希望ONNX Runtime尝试使用GPU进行推理。如果GPU不可用,则会回退到CPU执行。 ### 相关问题: 1. 如何检查我的系统是否支持ONNX Runtime的GPU推理功能? 2. 在ONNX Runtime中调整GPU使用率的最佳实践是什么? 3. 如果遇到GPU性能瓶颈,应如何排查和优化ONNX Runtime的GPU使用效率?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

乐亦亦乐

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值