吴恩达Deeplearning.ai笔记(7)目标检测

终于要进入object detection了。
在这里插入图片描述

分类并定位:

除了输出分类结果,还要输出边界框。
在这里插入图片描述
下面第二个图,想要检测面部的轮廓,可以让输出如下图所示。这种功能常见于各种美颜拍照软件。在这里插入图片描述

滑动窗口检测方法:

设定一个滑动窗口大小和步长,通过滑动窗口提出目标区域,通过分类器识别分类,然后再滑向下一个区域。其缺点是步长太大难检测到目标,步长太小计算量太大。

卷积的滑动窗口:

用卷积层来代替全连接层:在这里插入图片描述
CNN与FCN:

经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类,FCN可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。
在这里插入图片描述

下面这两个图的对比,更好看出区别(本菜鸡就是想知道为什么FCN可以处理不同大小的输入。。):
在这里插入图片描述
在这里插入图片描述

YOLO:

把分类并定位应用到每一个格子
输出的边界框是任意长宽比的
在这里插入图片描述
如何确定边界框参数bx,by,bh,bw?
可以看下图右边那个框框,一般左上角定义为(0,0),右下角为(1,1),目标物体的中心点可以看出大概是(0.4,0.3),长大概占0.9,宽大概占0.5。男神还告诉我们,中心点一般就在0与1之间,超出的话物体就会归为另一个区域,但是长宽可以超过1。
在这里插入图片描述

交并比(loU函数):计算了实际边界框和预测边界框的交集除以并集的比率。一般结果大于等于0.5则表示预测正确。(当然可以调)

非极大值抑制
因为对每个网格都运行检测算法,所以可能会有多个网格都检测到目标物体,向下面这种情况,就可能导致每个目标有多个检测结果,比如第二张图这样。
在这里插入图片描述
在这里插入图片描述
非极大值抑制就是要让每个目标物体只有一个检测结果。具体来说,它先看预测到目标概率最大的框,再看剩下的其他框和概率最大的框重叠度高(高loU值)的方形区域,将其抑制。剩下的就是最终预测结果。具体过程如下图:
在这里插入图片描述
多目标的非极大值抑制要怎么做?

anchor box
一个网格想检测多个目标怎么办?
设计anchor box,然后比较目标物体的边界框和anchor box的loU值,哪个loU值高表示目标物体的形状更像哪个anchor box。
在这里插入图片描述
这个y设计无法解决有三种目标物体出现、有两种目标物体出现但是他们都和同一个anchor box的形状类似等情况。
在这里插入图片描述
怎么样选择anchor box?

多目标的YOLO
假设下面那个绿色框起来的网格,检测到目标,其边界框和anchor box2的loU值更大,所以y如下绿色箭头所指。
在这里插入图片描述
下图是出现多个目标的时候的具体过程:
对每个网格,得到两个(因为这里anchor box设置的是两个)预测的bounding boxes;
除去检测到目标的概率低的预测;
独立地对每个类别使用非极大值抑制,产生最终预测。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值