3.1 目标定位
首先将一张图片送入卷积神经网络中,通过softmax分类器判决,输出y^hat。它的输出类别有四类:行人、汽车、摩托车、背景。并输出该物体的边界框。
输出向量y=[Pc,bx,by,bh,bw,c1,c2,c3]^T
Pc:若存在物体=1,是背景=0
c1,c2,c3:判断是行人、汽车、摩托车中的哪一类
3.2 特征点检测
例如你想做人脸识别,首先要确定特征点个数,并生成包含这些特征点的标签训练集,然后利用神经网络生成关键点位置;
人体姿态估计也是类似做法
3.3 目标检测
学习如何通过卷积网络进行目标检测,采用基于滑动窗口的目标检测算法
1、标签训练集:适当剪切图片
2、训练卷积网络,输出y=1或0,表示是否有汽车
3、对于一张测试图片,首先选定一个特定大小的窗口,将该红色小方块输入卷积网络,卷积网络开始预测,该小方块内有没有汽车,小方块以固定步幅自左向右,自上向下滑动,遍历图像。
4、选用更大的窗口,重复上述操作。
3.4 卷积的滑动窗口实现
1、将全连接层转化为卷积层,如图,输出Y是四个分类出现的概率,上面是全连接层,下面是对应的卷积层
2、为了简单,用平面图代替3D图。假设测试集是16×16×3和28×28×3
3.5 Bounding Box实现
为了可以输出更精确的边界框,使用YOLO算法
如图,100×100的图像上放一网格,为了简单用3×3网格,实际会用更精细的网格,可能19×19
基本思路:采用图像分类和定位算法,逐一应用在9个格子上;对于每一个格子,定义一个8维向量y
那怎么指定边界框呢?
我们约定小框的左上角是(0,0),右下角是(1,1),bw,bh是红色框占小网格的比例,可能大于1哦
YOLO论文:[Redmon et al.,2015,You Only Look Once:Unified real-time object detection]
3.6 交并比函数
用来评价对象检测算法
如图,计算两个边界框交集和并集之比
3.7 非极大值抑制
该算法可以确保你的算法对每个对象只检测一次,清理掉多余的检测结果,如图
只选择其中Pc最大的框,其余框被抑制
3.8 Anchor Boxes
解决一个格子只能检测一个对象的问题
吴恩达 深度学习第四课卷积神经网络 第三周 目标检测
最新推荐文章于 2020-12-03 16:58:09 发布