tensorRT---认识cuda RuntimeAPI（YOLOv5后处理）

zsffuture

已于 2022-05-21 10:41:02 修改

阅读量494

点赞数

分类专栏： cuda c++ 文章标签： pytorch 深度学习神经网络

于 2022-05-01 20:09:06 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42398658/article/details/124530308

版权

Yolov5是目标检测中比较经典的模型，学习对其后处理进行解码是非常有必要的。在这里我们仅使用核

函数对Yolov5推理的结果进行解码并恢复成框，掌握后处理所解决的问题，以及对于性能的考虑

经验之谈：

1. 对于后处理的代码研究，可以把 PyTorch 的数据通过转换成 numpy 后， tobytes 再写到文件，然后再到 c++ 中读取的方式，能够快速进行问题研究和排查，此时不需要 tensorRT 推理也可以做后处理研究。这也叫变量控制法

2. fast_nms_kernel 会在极端情况少框，但是这个极端情况一般不会出现，实测几乎没有影响

3. fast nms 在 cuda 实现上比较简单，高效，不用排序

yolov5的输出tensor(n x 85)

其中85是cx, cy, width, height, objness, classification * 80

CPU解码重点：

1. 避免多余的计算，需要知道有些数学运算需要的时间远超过很多 if ，减少他们的次数就是性能的关键

2. nms 的实现是可以优化的，例如 remove flag 并且预先分配内存， reserve 对输出分配内存

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
tensorRT---认识cuda RuntimeAPI（YOLOv5后处理）

Yolov5是目标检测中比较经典的模型，学习对其后处理进行解码是非常有必要的。在这里我们仅使用核函数对Yolov5推理的结果进行解码并恢复成框，掌握后处理所解决的问题，以及对于性能的考虑经验之谈：1.对于后处理的代码研究，可以把PyTorch的数据通过转换成numpy后，tobytes再写到文件，然后再到c++中读取的方式，能够快速进行问题研究和排查，此时不需要tensorRT推理也可以做后处理研究。这也叫变量控制法2.fast_nms_kernel会在极端情况少框，但是这个极端情况一般
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。