论文笔记之YOLO

1. YOLO

1.1介绍

You Only Look Once,顾名思义,你只需要看一次就知道这个图中的object,这也符合人眼的逻辑。YOLO将物体检测直接当做一个回归问题来处理,直接通过神经网络,输入图片,输出object的边界框坐标以及类别。YOLO的特点是速度非常快,精度不太高。

1.2 总体流程

在这里插入图片描述
1)将图像resize到固定大小作为神经网络的输入
2)深度神经网络处理后输出框坐标、box中包含物体的置信度以及类概率
3)NMS后输出最终的检测框

1.3 网络结构

YOLO检测网络包括24个卷积层和2个全连接层,如图所示:

在这里插入图片描述
其中,卷积层用来提取图像特征,全连接层用来预测图像位置和类别概率值。
YOLO网络借鉴了GoogLeNet分类网络结构。不同的是,YOLO未使用inception module,而是使用1x1卷积层(此处1x1卷积层的存在是为了跨通道信息整合)+3x3卷积层简单替代。

1.4 检测模型

在这里插入图片描述
YOLO是将输入图像划分为S×S个小网格。如果物体的中心落入网格单元,则该网格单元负责检测该物体。每个网格单元预测边界框和这些框的置信度得分。 这些置信度得分反映了box中包含一个物体的可能性,以及模型认为box预测的准确性。 形式上,将置信度定义为Pr(Object)* IOU(truth ,pred)。 如果该单元格中没有物体,则置信度分数应为零。 否则,置信度分数等于预测框与真实框之间的交并比(IOU)。

每个边界框由5个预测组成:x,y,w,h和置信度。(x,y)坐标表示框相对于网格单元边界的中心。 w和h是相对于整个图像预测的宽度和高度。 最后,置信度预测表示预测框与任何真实框之间的IOU。

每个网格单元还预测C个条件类概率Pr(Classi|Object)。 这些概率以包含目标的网格单元为条件。 无论框的数量如何,仅预测每个网格单元的一组类概率。

在测试时,将类概率与各个框的置信度预测相乘,在这里插入图片描述这提供了每个框的特定类的置信度得分 。 这些分数既编码了该类别出现在box中的概率,也代表了预测的box符合这个物体的程度。

1.5 Loss函数

在这里插入图片描述
其中,在这里插入图片描述表示目标是否出现在单元格i中,在这里插入图片描述表示单元格i中的第j个边界框预测器对该预测负责。

前两行为坐标损失(只对这个网格单元中任何和真实值有最高的IOU的预测框计算);后两行为置信度损失(对所有网格计算),最后一行为分类损失(只对存在object的网格单元计算)

1.6 不足之处

  • YOLO对边界框预测施加了很强的约束(每个网格单元只能预测两个框,并且只能有一个类)。这个约束限制了模型可以预测的邻近目标的数量,所以模型对于成群出现的小物体表现不好,例如成群的鸟。
  • 由于模型从数据中学习预测边界框,所以它很难推广到新的或不寻常的宽高比的物体。
  • 损失函数对待小边界框和大边界框中的误差是一样的。大box里的小错误通常是良性的,但小box里的小错误对IOU的影响要大得多。错误主要来源于定位错误。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值