记录一次Tensorrt batch推理异常的处理

一个中年程序员的自我修养

于 2023-10-15 10:48:12 发布

阅读量298

点赞数 1

文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_19986067/article/details/133824444

版权

1.背景

项目上一直使用darknet yolov5做目标检测。

最近给半导体部门提供C++ 推理库，还得支持TensorRT。

2.问题现象

测试下来发现batch推理和单张推理结果不一致。

比如72张芯粒样本，里面有20张是不良品，单张推理结果是正确的，但batch推理结果却只能有9张不良品。和batch size也无关。

3.解决方案

经过反复测试，发现传入约80%的图片能正确推理成功（比如batch size=64,传入40张图片，其余为0）。因为项目紧急，本来想先提供这个临时方案的。

后来又专门花了点时间研究了下，查找网上类似问题，发现了解决方案如下：

增加一个同步处理即可。

原理如下：

这句话的作用就是让data拷贝到GPU结束后，CPU线程再继续。之前没有这句话，应该是没拷贝全到显存。

各位如有别的看法，欢迎到评论区一起讨论~

一个中年程序员的自我修养

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
记录一次Tensorrt batch推理异常的处理

经过反复测试，发现传入约80%的图片能正确推理成功（比如batch size=64,传入40张图片，其余为0）。因为项目紧急，本来想先提供这个临时方案的。比如72张芯粒样本，里面有20张是不良品，单张推理结果是正确的，但batch推理结果却只能有9张不良品。和batch size也无关。这句话的作用就是让data拷贝到GPU结束后，CPU线程再继续。之前没有这句话，应该是没拷贝全到显存。最近给半导体部门提供C++ 推理库，还得支持TensorRT。测试下来发现batch推理和单张推理结果不一致。
复制链接

扫一扫

一个中年程序员的自我修养 CSDN认证博客专家 CSDN认证企业博客

码龄10年

44: 原创

119万+: 周排名

7万+: 总排名

8276: 访问

: 等级

541: 积分

90: 粉丝

103: 获赞

3: 评论

96: 收藏

私信

关注

热门文章

分类专栏

学习笔记 1篇

最新评论

记录一次Tensorrt batch推理异常的处理
平川700: 我是使用了cudaMemcpy函数出现您所描述的问题，单个推理正确，但是batch推理不正确的问题
记录一次Tensorrt batch推理异常的处理
平川700: 博主您这个问题好像是cuda同步传输和异步传输的问题，我看在buffers.h函数中好像有地方可以设置是同步传输还是一步传输的地方，同步传输用的是cudaMemcpy函数，异步传输是cudaMemcpyAsync()，不知道博主有没有做这方面的改动尝试？
记录一次Tensorrt batch推理异常的处理
平川700: 博主您好，我也遇到了同样的问题，batchsize=1的时候都能正常推理，但是一旦batchsize>1，在推理的时候只能保证有且仅有一个推理是正确的；想问一下博主图片里面的两行cudaSteamSynchronize(stream)都是新加进去的吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。