吴恩达Deeplearning.ai笔记（7）目标检测

最新推荐文章于 2022-10-04 22:27:05 发布

_Yangtze

最新推荐文章于 2022-10-04 22:27:05 发布

阅读量744

点赞数

分类专栏：深度学习文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/Wind__Chaser/article/details/104234563

版权

深度学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

终于要进入object detection了。
在这里插入图片描述

分类并定位：

除了输出分类结果，还要输出边界框。
在这里插入图片描述
下面第二个图，想要检测面部的轮廓，可以让输出如下图所示。这种功能常见于各种美颜拍照软件。

滑动窗口检测方法：

设定一个滑动窗口大小和步长，通过滑动窗口提出目标区域，通过分类器识别分类，然后再滑向下一个区域。其缺点是步长太大难检测到目标，步长太小计算量太大。

卷积的滑动窗口：

用卷积层来代替全连接层：在这里插入图片描述
CNN与FCN：

经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类，FCN可以接受任意尺寸的输入图像，采用反卷积层对最后一个卷积层的feature map进行上采样, 使它恢复到输入图像相同的尺寸，从而可以对每个像素都产生了一个预测, 同时保留了原始输入图像中的空间信息，最后在上采样的特征图上进行逐像素分类。

下面这两个图的对比，更好看出区别（本菜鸡就是想知道为什么FCN可以处理不同大小的输入。。）：
在这里插入图片描述

YOLO：

把分类并定位应用到每一个格子
输出的边界框是任意长宽比的
在这里插入图片描述
如何确定边界框参数bx，by，bh，bw？
可以看下图右边那个框框，一般左上角定义为（0,0），右下角为（1,1），目标物体的中心点可以看出大概是（0.4,0.3），长大概占0.9，宽大概占0.5。男神还告诉我们，中心点一般就在0与1之间，超出的话物体就会归为另一个区域，但是长宽可以超过1。
在这里插入图片描述

交并比（loU函数）：计算了实际边界框和预测边界框的交集除以并集的比率。一般结果大于等于0.5则表示预测正确。（当然可以调）

非极大值抑制
因为对每个网格都运行检测算法，所以可能会有多个网格都检测到目标物体，向下面这种情况，就可能导致每个目标有多个检测结果，比如第二张图这样。
在这里插入图片描述

非极大值抑制就是要让每个目标物体只有一个检测结果。具体来说，它先看预测到目标概率最大的框，再看剩下的其他框和概率最大的框重叠度高（高loU值）的方形区域，将其抑制。剩下的就是最终预测结果。具体过程如下图：
在这里插入图片描述
多目标的非极大值抑制要怎么做？

anchor box
一个网格想检测多个目标怎么办？
设计anchor box，然后比较目标物体的边界框和anchor box的loU值，哪个loU值高表示目标物体的形状更像哪个anchor box。
在这里插入图片描述
这个y设计无法解决有三种目标物体出现、有两种目标物体出现但是他们都和同一个anchor box的形状类似等情况。

怎么样选择anchor box？

多目标的YOLO
假设下面那个绿色框起来的网格，检测到目标，其边界框和anchor box2的loU值更大，所以y如下绿色箭头所指。
在这里插入图片描述
下图是出现多个目标的时候的具体过程：
对每个网格，得到两个（因为这里anchor box设置的是两个）预测的bounding boxes；
除去检测到目标的概率低的预测；
独立地对每个类别使用非极大值抑制，产生最终预测。
在这里插入图片描述

_Yangtze

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
吴恩达Deeplearning.ai笔记（7）目标检测

终于要进入object detection了。分类并定位：除了输出分类结果，还要输出边界框。下面第二个图，想要检测面部的轮廓，可以让输出如下图所示。这种功能常见于各种美颜拍照软件。滑动窗口检测方法：设定一个滑动窗口大小和步长，通过滑动窗口提出目标区域，通过分类器识别分类，然后再滑向下一个区域。其缺点是步长太大难检测到目标，步长太小计算量太大。卷积的滑动窗口：用卷积层来代替全连接层...
复制链接

扫一扫

专栏目录