吴恩达深度学习第四课卷积神经网络第三周目标检测

最新推荐文章于 2020-12-03 16:58:09 发布

exo一起走花路啊

最新推荐文章于 2020-12-03 16:58:09 发布

阅读量504

点赞数

本文链接：https://blog.csdn.net/qq_38962531/article/details/88529238

版权

3.1 目标定位
首先将一张图片送入卷积神经网络中，通过softmax分类器判决，输出y^hat。它的输出类别有四类：行人、汽车、摩托车、背景。并输出该物体的边界框。
在这里插入图片描述
输出向量y=[Pc,bx,by,bh,bw,c1,c2,c3]^T
Pc:若存在物体=1，是背景=0
c1,c2,c3:判断是行人、汽车、摩托车中的哪一类

3.2 特征点检测
例如你想做人脸识别，首先要确定特征点个数，并生成包含这些特征点的标签训练集，然后利用神经网络生成关键点位置；
人体姿态估计也是类似做法
在这里插入图片描述
3.3 目标检测
学习如何通过卷积网络进行目标检测，采用基于滑动窗口的目标检测算法
1、标签训练集：适当剪切图片
2、训练卷积网络，输出y=1或0，表示是否有汽车

3、对于一张测试图片，首先选定一个特定大小的窗口，将该红色小方块输入卷积网络，卷积网络开始预测，该小方块内有没有汽车，小方块以固定步幅自左向右，自上向下滑动，遍历图像。
4、选用更大的窗口，重复上述操作。
在这里插入图片描述
3.4 卷积的滑动窗口实现
1、将全连接层转化为卷积层，如图，输出Y是四个分类出现的概率，上面是全连接层，下面是对应的卷积层

2、为了简单，用平面图代替3D图。假设测试集是16×16×3和28×28×3

3.5 Bounding Box实现
为了可以输出更精确的边界框，使用YOLO算法
如图，100×100的图像上放一网格，为了简单用3×3网格，实际会用更精细的网格，可能19×19
基本思路：采用图像分类和定位算法，逐一应用在9个格子上；对于每一个格子，定义一个8维向量y
在这里插入图片描述
那怎么指定边界框呢？

我们约定小框的左上角是（0，0），右下角是（1，1），bw,bh是红色框占小网格的比例，可能大于1哦
YOLO论文：[Redmon et al.,2015,You Only Look Once:Unified real-time object detection]
3.6 交并比函数
用来评价对象检测算法
如图，计算两个边界框交集和并集之比
在这里插入图片描述
3.7 非极大值抑制
该算法可以确保你的算法对每个对象只检测一次，清理掉多余的检测结果，如图

只选择其中Pc最大的框，其余框被抑制

3.8 Anchor Boxes
解决一个格子只能检测一个对象的问题