目标检测YOLO进化史之yolov1

yolov3在目标检测领域可以算得上是state-of-art级别的了,在实时性和准确性上都有很好的保证.yolo也不是一开始就达到了这么好的效果,本身也是经历了不断地演进的.

yolov1

测试图片
583030-20190823160812280-2003905310.png

yolov1有个基本的思想,就是将图片划分为S*S个小格grid,每个grid负责一个目标.上图里的黄色框就是grid.蓝色框就是预测的object.蓝色点是object的中心,位于黄色框内.
583030-20190823160845297-390438219.png

583030-20190823161230123-485164387.png

每个grid只预测一个目标,这个就造成了yolo的一个缺陷,当多个目标的中心都落在同一个grid cell里的时候,却只能预测出来一个.比如上图左下角有9个圣诞老人,但是只预测出来5个.

583030-20190911103210681-984456012.png

583030-20190911103238430-1035482630.png

反映到模型上,也就是说输入一个448*448*3图片,经过不断卷积,输出一个7*7*30的tensor. 这里的7*7就对应于上面说到的S*S.

583030-20190823161309745-193527826.png

那么这里的30怎么来的呢? 每一个grid cell预测2个框出来,每个框对应5个值,(x,y,w,h)和一个box confidence score.box confidence score反映了预测出来的box含有目标的可能性以及这个预测的box的准确性. yolov1预测出20个类别的概率. 所以30 = 2*5 + 20
我们用B指代每个cell预测出B个box,C指代每个cell预测出C个类别的概率.那么yolo的输出的tensor的shape则为(S,S,Bx5+C)

这就是yolo的核心思想了,构建一个CNN网络,得到一个(7,7,30)的tensor.
583030-20190823161331851-1481870007.png

这样的话就得到了7*7*2个box,我们只保留box confidence score>某个值的box作为我们最终的预测box.
583030-20190823161519929-805422210.png

loss

损失函数分为3个部分

  • box位置错误
  • confidence错误(box确实包含目标的可能性错误)
  • 类别概率错误
    其实也就是衡量我们的这些预测值(x,y,w,h,confidence,classp1,classp2....)和真实值的差异

首先,我们预测出了B个box,我们只会用其中一个去计算loss.我们选取与ground-truth box的IOU最大的作为我们计算loss的box.ground-truth box怎么来,因为我们事先已经把数据标注好了,我们当然可以找到ground-truth box的中心位于某个grid cell内,如果有多个ground-truth box的中心都位于当前grid cell内,怎么办?计算每一个predict box和每一个ground-truth box的IOU,选取iou最大的作为相应的predict box,ground-truth box.这个方式带来的一个问题就是前面圣诞老人那个图说到的,当多个目标很密集,他们的中心都落在了同一个grid cell内的时候,yolov1只能检测出其中之一.

loss函数如下图所示:
583030-20190823161937785-1201118995.png

loss函数的设计基于以下几种考虑

  1. 每一种loss都给相同的权重是不合适的,对于box位置错误给更多的权重,??????=5
  2. 大的box和小的box,在预测的偏离差不多的情况下,显然大的box算出来的平方根误差更大,所以在计算w,h的误差的时候采取了开平方的形式
    583030-20190823162020508-1561921722.png

  3. 一幅图中,有很多grid cell是没有物体的,那么就会将这些grid cell中的bounding box的confidence 置为0,会导致计算梯度时,包含物体的grid cell的影响被放大,所以对不包含目标的grid cell,在计算confidence loss的时候给了一个权重λnoobj = 0.5

    We use sum-squared error because it is easy to optimize, however it does not perfectly align with our goal of
    maximizing average precision. It weights localization error equally with classification error which may not be ideal.
    Also, in every image many grid cells do not contain any
    object. This pushes the “confidence” scores of those cells
    towards zero, often overpowering the gradient from cells
    that do contain objects. This can lead to model instability,
    causing training to diverge early on.
    To remedy this, we increase the loss from bounding box
    coordinate predictions and decrease the loss from confidence predictions for boxes that don’t contain objects. We
    use two parameters, λcoord and λnoobj to accomplish this. We
    set λcoord = 5 and λnoobj = :5.

关于第三点,"导致计算梯度时,包含物体的grid cell的影响被放大",我不知道是不是原始的论文的表述有问题还是我理解的问题?
给不包含目标的grid cell一个较低的权重,我理解应该是避免模型学到太多background信息,毕竟模型的目标是检测出目标,所以应该更关注含有目标的grid cell.

yolo的优点与不足

  • 快,适合需要实时处理的场景,比如自动驾驶
  • 少了区域选择的过程,可以做端到端的训练
  • region proposal的方法把分类限制在了特定的区域上,yolo能够从整幅图中学习信息,所以在背景图检测的false positive更低,也就是错检率低
  • 多个目标挨得很近,或者目标很小,检测效果不好

参考
https://blog.csdn.net/hrsstudy/article/details/70305791
https://arxiv.org/abs/1506.02640
https://medium.com/@jonathan_hui/real-time-object-detection-with-yolo-yolov2-28b1b93e2088

转载于:https://www.cnblogs.com/sdu20112013/p/11400692.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
目标检测(Object Detection)是计算机视觉领域的一个核心问题,其主要任务是找出图像中所有感兴趣的目标(物体),并确定它们的类别和位置。以下是对目标检测的详细阐述: 一、基本概念 目标检测的任务是解决“在哪里?是什么?”的问题,即定位出图像中目标的位置并识别出目标的类别。由于各类物体具有不同的外观、形状和姿态,加上成像时光照、遮挡等因素的干扰,目标检测一直是计算机视觉领域最具挑战性的任务之一。 二、核心问题 目标检测涉及以下几个核心问题: 分类问题:判断图像中的目标属于哪个类别。 定位问题:确定目标在图像中的具体位置。 大小问题:目标可能具有不同的大小。 形状问题:目标可能具有不同的形状。 三、算法分类 基于深度学习的目标检测算法主要分为两大类: Two-stage算法:先进行区域生成(Region Proposal),生成有可能包含待检物体的预选框(Region Proposal),再通过卷积神经网络进行样本分类。常见的Two-stage算法包括R-CNN、Fast R-CNN、Faster R-CNN等。 One-stage算法:不用生成区域提议,直接在网络中提取特征来预测物体分类和位置。常见的One-stage算法包括YOLO系列YOLOv1YOLOv2、YOLOv3、YOLOv4、YOLOv5等)、SSD和RetinaNet等。 四、算法原理 以YOLO系列为例,YOLO目标检测视为回归问题,将输入图像一次性划分为多个区域,直接在输出层预测边界框和类别概率。YOLO采用卷积网络来提取特征,使用全连接层来得到预测值。其网络结构通常包含多个卷积层和全连接层,通过卷积层提取图像特征,通过全连接层输出预测结果。 五、应用领域 目标检测技术已经广泛应用于各个领域,为人们的生活带来了极大的便利。以下是一些主要的应用领域: 安全监控:在商场、银行
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值