记录一次Tensorrt batch推理异常的处理

1.背景

 项目上一直使用darknet yolov5做目标检测。

最近给半导体部门提供C++ 推理库,还得支持TensorRT。

2.问题现象

测试下来发现batch推理和单张推理结果不一致。

比如72张芯粒样本,里面有20张是不良品,单张推理结果是正确的,但batch推理结果却只能有9张不良品。和batch size也无关。

3.解决方案

经过反复测试,发现传入约80%的图片能正确推理成功(比如batch size=64,传入40张图片,其余为0)。因为项目紧急,本来想先提供这个临时方案的。

后来又专门花了点时间研究了下,查找网上类似问题,发现了解决方案如下:

增加一个同步处理即可。

原理如下:

这句话的作用就是让data拷贝到GPU结束后,CPU线程再继续。之前没有这句话,应该是没拷贝全到显存。

各位如有别的看法,欢迎到评论区一起讨论~

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
在进行动态 batch 推理时,需要注意如何处理输入数据和输出数据。 对于输入数据,我们需要根据当前 batch size 动态地生成输入张量,并将其传递给 `session.Run()` 方法进行推理。在 Python API 中,可以使用 NumPy 数组来表示输入张量;在 C++ API 中,需要手动创建输入张量的 value 对象,并将其包装到 vector 中传递给 `session.Run()` 方法。需要注意的是,不同 batch size 的输入张量的形状可能不同,因此需要根据当前 batch size 动态地计算输入张量的形状。 对于输出数据,我们可以使用与固定 batch size 推理相同的方式来处理。在 Python API 中,输出结果是一个 NumPy 数组的列表;在 C++ API 中,输出结果是一个 value 对象的 vector。在处理输出结果时,需要注意不同 batch size 的输出结果的形状可能不同,因此需要根据当前 batch size 动态地计算输出结果的形状。 下面是一个示例代码,演示如何使用 NumPy 数组处理输入数据和输出数据: ```python import numpy as np import onnxruntime # 创建一个模型 sess = onnxruntime.InferenceSession("model.onnx") # 定义输入张量的形状 input_shape = sess.get_inputs()[0].shape # 定义要执行的 batch size batch_sizes = [1, 2, 3] # 动态推理 for batch_size in batch_sizes: # 创建输入张量 input_dim = [batch_size] + list(input_shape[1:]) input_data = np.random.randn(*input_dim).astype(np.float32) # 执行推理 output = sess.run(None, {sess.get_inputs()[0].name: input_data}) # 处理输出结果 output_dim = [batch_size] + list(output[0].shape[1:]) output_data = output[0].reshape(output_dim) # ... ``` 在这个示例中,我们首先创建了一个 `InferenceSession` 对象,然后获取了输入张量的形状。接着,我们定义了要执行的 batch size 列表,并在循环中动态地生成输入张量,并将其传递给 `sess.run()` 方法进行推理。最后,我们可以使用 NumPy 数组处理输出结果,例如将其重新 reshape 成与当前 batch size 对应的形状。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值