【YOLOV5】预测结果解码流程

最新推荐文章于 2024-07-08 15:31:26 发布

mjiansun

最新推荐文章于 2024-07-08 15:31:26 发布

阅读量2.6k

点赞数 2

分类专栏：机器学习文章标签：深度学习 python 人工智能

原文链接：https://zhuanlan.zhihu.com/p/453846025

版权

机器学习专栏收录该内容

174 篇文章 40 订阅

订阅专栏

本文深入解析YOLOv5目标检测算法，介绍其基于网格的预测流程。网络输入为640×640 RGB图片，通过网络后输出包括边界框坐标、置信度等参数。每个尺度的检测层有不同的网格数、预设先验框数和类别数。解码预测参数可得到最终边界框。文章通过实例展示了标签边界框和先验框的概念，帮助理解YOLOv5的工作原理。

摘要由CSDN通过智能技术生成

YOLOv5 继承了 YOLO 算法的网格划分思想，具体预测流程如下图所示。

网络输入维度为 640×640×3，即原始图片预处理之后的长宽都为 640 的 3 通道RGB 彩色图片，通过网络后，大中小 3 个尺度的检测层输出维度为 S×S×na×（tx+ty+tw+th+to+nc），其中 S×S 为划分的网格个数，na为每个尺度对应预设先验框的个数，nc为需要预测的类别数。以大尺度 S=20、na=3、nc=3 为例，该维度网络结构的检测层输出维度为 20×20×3×（5+3）=9600。

网络模型主要预测参数有边界框相关参数xt 、yt 、wt 、ht ，边界框置信度to 和第 i 类别的置信度tci。这些参数需要解码如下公式得到最终的预测框。

如下图所示，蓝色框是标签边界框（ground truth box），bx、by、bw、bh分别为标签边界框中心点坐标和宽高尺寸，cx、cy是该标签边界框中心所占据网格（grid）与左上角的网格距离；红色的是先验框（anchor box），pw、ph是先验框的宽高。

关注

2
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
【YOLOV5】预测结果解码流程

网络输入维度为 640×640×3，即原始图片预处理之后的长宽都为 640 的 3 通道RGB 彩色图片，通过网络后，大中小 3 个尺度的检测层输出维度为 S×S×na×（tx+ty+tw+th+to+nc），其中 S×S 为划分的网格个数，na为每个尺度对应预设先验框的个数，nc为需要预测的类别数。如下图所示，蓝色框是标签边界框（ground truth box），bx、by、bw、bh分别为标签边界框中心点坐标和宽高尺寸，cx、cy是该标签边界框中心所占据网格（grid）与左上角的网格距离；
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。