1.yolov5目标检测-理论部分

YOLO基本思想

计算机视觉有3类主要任务:图像分类、目标检测、图像分割。图像分类就是将图像中的物体进行分类,比如是猫还是狗。目标检测不只要识别出来哪一类,还要识别出目标在图像中的位置。图像分割分为语义分割和实例分割(要求判断图像中的像素属于哪个类别)。
you only look once(你只看一次)= YOLO
在这里插入图片描述
由图片分类,过渡到目标检测,除了识别出目标,还要标记出目标的位置。我们希望模型输出下图中的结论,Pc为最大概率类别的概率,比如更像猫,然后99.5%,w,y是图像中心点,w,h是目标框的宽高,要记住xywh这种坐标表示方法到后面模型输出结论是有用的。下面就是识别到的类别a、b、c、d。
在这里插入图片描述
这里举两个例子,如下图,识别出来一只狗的上图,和识别不出来东西的下图。
在这里插入图片描述
于是乎,我们可以把图片和标注信息(类别,x,y,w,h)作为训练集,进行训练。这个过程是有监督的学习,对于每个图都要提供标注信息,也要提供背景图,背景图不标注,这样可以提高识别准确率。
在这里插入图片描述
注意,这里的卷积审计网络只是代值网络模型,并不是具体的模型实现手段。训练完毕之后,我们输入一张新的猫咪图,这样模型就能把目标进行定位,然后输出。如下图所示。
在这里插入图片描述
注意,这种策略只适用于单个物体,多个物体如何处理?
yolo的算法为了解决这个多物体的问题,将图像分为了含有多个目标的小格子,如下图所示。
在这里插入图片描述
可以将图片进行网格化的切分。对于每个小格子,都进行归一化,如果有目标就进行目标的定位,其中xy为中心点在小格子中的位置,w,h为大目标(绿框)相对于小格子(1)的高度和宽度。 如果每个小格子的x,y都是44的,那么都可以组成一个447的三阶矩阵,7是目标的位置矩阵,4和4是坐标的位置。
在这里插入图片描述
按照这种思想,我们可以构建训练集,来训练我们的网络,如下图:
在这里插入图片描述
训练完之后,模型再遇到新的图,就能识别多目标了。如下图所示。
在这里插入图片描述
这只是简单的思想示意,过程中还会有很多问题。比如yolo在检测的过程中,对同一个物体会标注出来多次,那么怎么确定最好的目标定位坐标是哪个呢?yolo使用的是IOU交并比的概念。
在这里插入图片描述
以狗为例,识别了三个框,分别是0.9,0.7,0.6(3个概率),两两比较IOU(我们可以知道 loU衡量了两个边界框重叠地相对大小。如果你有两个边界框,你可以计算交集,计算并集,然后求两个数值的比值),选择IOU大的则为识别最好的框。yolo会把边界框概率最大的拿出来,与其他的概率小的边界框求交并比,如果大于某个阈值,就会丢掉小的。
yolo模型会使用非极大值抑制,来选择置信度最高的那个框。
如果一个格子包含多个物体怎么办?如下图。会将长度为7的向量拼接起来,实际使用,格子都很小,基本不会出现这种情况的。
在这里插入图片描述
所以到最后,你的网络,就是根据类别生成的网络,4
4*n这种关系。
在这里插入图片描述

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值