1.yolov5目标检测-理论部分

余生的观澜

已于 2022-05-02 16:46:42 修改

阅读量4k

点赞数 1

分类专栏：计算机视觉文章标签： python 计算机视觉目标检测

于 2022-04-22 15:56:04 首次发布

本文链接：https://blog.csdn.net/qq_25310669/article/details/124321969

版权

计算机视觉专栏收录该内容

23 篇文章 4 订阅

订阅专栏

YOLO基本思想

计算机视觉有3类主要任务：图像分类、目标检测、图像分割。图像分类就是将图像中的物体进行分类，比如是猫还是狗。目标检测不只要识别出来哪一类，还要识别出目标在图像中的位置。图像分割分为语义分割和实例分割（要求判断图像中的像素属于哪个类别）。
you only look once（你只看一次）= YOLO
在这里插入图片描述
由图片分类，过渡到目标检测，除了识别出目标，还要标记出目标的位置。我们希望模型输出下图中的结论，Pc为最大概率类别的概率，比如更像猫，然后99.5%，w，y是图像中心点，w，h是目标框的宽高，要记住xywh这种坐标表示方法到后面模型输出结论是有用的。下面就是识别到的类别a、b、c、d。
在这里插入图片描述
这里举两个例子，如下图，识别出来一只狗的上图，和识别不出来东西的下图。

于是乎，我们可以把图片和标注信息（类别，x，y，w，h）作为训练集，进行训练。这个过程是有监督的学习，对于每个图都要提供标注信息，也要提供背景图，背景图不标注，这样可以提高识别准确率。
在这里插入图片描述
注意，这里的卷积审计网络只是代值网络模型，并不是具体的模型实现手段。训练完毕之后，我们输入一张新的猫咪图，这样模型就能把目标进行定位，然后输出。如下图所示。

注意，这种策略只适用于单个物体，多个物体如何处理？
yolo的算法为了解决这个多物体的问题，将图像分为了含有多个目标的小格子，如下图所示。
在这里插入图片描述
可以将图片进行网格化的切分。对于每个小格子，都进行归一化，如果有目标就进行目标的定位，其中xy为中心点在小格子中的位置，w，h为大目标（绿框）相对于小格子（1）的高度和宽度。如果每个小格子的x，y都是44的，那么都可以组成一个447的三阶矩阵，7是目标的位置矩阵，4和4是坐标的位置。

按照这种思想，我们可以构建训练集，来训练我们的网络，如下图：

训练完之后，模型再遇到新的图，就能识别多目标了。如下图所示。

这只是简单的思想示意，过程中还会有很多问题。比如yolo在检测的过程中，对同一个物体会标注出来多次，那么怎么确定最好的目标定位坐标是哪个呢？yolo使用的是IOU交并比的概念。

以狗为例，识别了三个框，分别是0.9，0.7，0.6（3个概率），两两比较IOU（我们可以知道 loU衡量了两个边界框重叠地相对大小。如果你有两个边界框，你可以计算交集，计算并集，然后求两个数值的比值），选择IOU大的则为识别最好的框。yolo会把边界框概率最大的拿出来，与其他的概率小的边界框求交并比，如果大于某个阈值，就会丢掉小的。
yolo模型会使用非极大值抑制，来选择置信度最高的那个框。
如果一个格子包含多个物体怎么办？如下图。会将长度为7的向量拼接起来，实际使用，格子都很小，基本不会出现这种情况的。

所以到最后，你的网络，就是根据类别生成的网络，44*n这种关系。
在这里插入图片描述

余生的观澜

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
1.yolov5目标检测-理论部分

YOLO基本思想计算机视觉有3类主要任务：图像分类、目标检测、图像分割。图像分类就是将图像中的物体进行分类，比如是猫还是狗。目标检测不只要识别出来哪一类，还要识别出目标在图像中的位置。图像分割分为语义分割和实例分割（要求判断图像中的像素属于哪个类别）。you only look once（你只看一次）= YOLO由图片分类，过渡到目标检测，除了识别出目标，还要标记出目标的位置。我们希望模型输出下图中的结论，Pc为最大概率类别的概率，比如更像猫，然后99.5%，w，y是图像中心点，w，h是目标框的宽
复制链接

扫一扫