目标检测与YOLO

目标检测问题

目标检测是在给定的图片中精确找到物体所位置,并注出类别。物体的尺寸变化范围很大,摆放角度姿态不定而且可以出现在图片的任何地方,并且物体还可以是多个类别。

 YOLO网络结构概略图

 网络结构包含 24 个卷积层和 2个全连接层;其中前 20 个卷积层用来做预训 练,后面 4个是随机初始化的卷积层,和 2个全连接层。

 YOLO模型

𝟕×𝟕网格划分

将图片分割为𝑆 x 𝑆个grid( 𝑆=7),每 个grid cell 的大小都是相等,每个格子都可以检测是否包含目标YOLO v1 中,每个格子只能检测一种物体(但可以不同大小)。

网络输出

输出是一个 7×7×30的张量。对应 7×7个cell,每个 cell 对应 2个包围框 (bounding box, bb) , 预测不同大小和宽高比对应检测不同目标。每个 bb 有5个分量,分别是物体的中心位置 (𝑥,𝑦)和它的高 (ℎ)和宽 (𝑤),以及这次预测的置信度。在右图中,每个框代表 1个预测的 bb ,粗细代表不同的置信度越得高。

 模型输出

在上面的例子中,图片被分成了 49 个框,每个框预测 2个bb ,因此上面的图中有98 个bb

包围框与置信度 

YOLO包围框

我们有 𝑆 x 𝑆 个框,每的 bb 个数为 𝐵,分类器可以识别出 𝐶种不同的物体, 那么所有整个ground truth 的长度为 𝑆×𝑆×(𝐵×5+𝐶)。YOLO v1 中,这个数量是 30,YOLO v2 和以后版本使用了自聚类的 anchor box 为bb, v2 版本为 𝐵=5, v3 中 𝐵=9。

四个关于位置的值,分别是 𝑥, 𝑦, ℎ和𝑤,均为整数实际预测中收敛慢。因此,需要对数据进行归一化在 0-1之间。例子是一个 448 x 448 的图 片,有 3 x 3 的grid ,每个 cell 是149 。目标中心点是 (220,190)。

 YOLO置信度

YOLO 损失函数

 

 

 

 非极大值抑制(NMS)

NMS 核心思想是:选择得分最高的作为输出,与该输出重叠的去掉,不断重复这一过程直到所有备选处理完。

算法步骤

1. 首先丢弃概率小于预定IOU阈值(例如0.5)的所有边界框;2. 选择具有最高概率的边界框并将其作为输出预测;3. 计算“作为输出预测的边界框”,与其他边界框的相关联IoU值;舍去IoU大于阈值的边界框;其实就是舍弃与“作为输出预测的边界框”很相近的框;4. 重复步骤2,直到所有边界框都被视为输出预测或被舍弃。

预训练与训练

YOLO 先使用 ImageNet数据集对前 20 层卷积网络进行预训练,然后使用完整的网络,在PASCAL VOC数据集上进行对象识别和定位的训练和预测。
训练中采用了drop out 和数据增强来防止过拟合。
 YOLO 的最后一层采用线性激活函数(因为要回归 bb 位置 ),其它层都是采用 Leaky ReLU 激活函数。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值