目标检测学习

Q渡劫

已于 2023-07-12 23:39:56 修改

阅读量795

点赞数

分类专栏：深度学习文章标签：深度学习神经网络

于 2023-07-11 21:29:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51691366/article/details/131669599

版权

深度学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

目录

1、目标定位

2、特征点检测

3、目标检测

4、滑动窗口的卷积实现

5、Bounding Box 预测（Bounding box predictions）

7、非极大值抑制

8、Anchor Boxes

1、目标定位

2、特征点检测

如何检测特征点（以人的部位为例）

（1）、准备一个卷积网络和一些特征集，将人脸图片输入卷积网络，输出 1 或 0， 1 表示有人

脸，0 表示没有人脸。然后输出（𝑙1𝑥，𝑙1𝑦）……直到（𝑙64𝑥，𝑙64𝑦）

（2）、这里有129 个输出单元，其中1表示图片中有人脸，因为有64个特征，64×2=128，

所以最终输出 128+1=129 个单元，由此根据这128个人脸特征实现对图片的人脸检测和定位，或

者表情识别这些更加复杂的操作

3、目标检测

滑动窗口目标检测算法

（1）、选定一个特定大小的窗口，比如上面图片中的窗口，将这个红色小方块输入卷积神经网

络，卷积网络开始进行预测，即判断红色方框内有没有汽车

（2）、迭代上面的图片中的每一个窗口中的图片，进行重复的操作。红色小方块中的图片输入

卷积神经网络中进行预测，若有汽车则输出1，否则为0

滑动窗口目标检测算法的缺点

（1）、滑动窗口目标检测算法也有很明显的缺点，就是计算成本，因为你在图片中剪切出太多

小方块，卷积网络要一个个地处理

（2）、选用的步幅很大，显然会减少输入卷积网络的窗口个数，但是粗糙间隔尺寸可能会影响性

能

（3）、如果采用小粒度或小步幅，传递给卷积网络的小窗口会特别多，这意味着超高的计算成本

4、滑动窗口的卷积实现

神经网络的全连接层转化成卷积层

（1）、首先要把神经网络的全连接层转化成卷积层

（2）、前几层和之前的一样，而对于下一层，也就是这个全连接层，我们可以用 5×5 的过滤器来

实现，数量是 400 个（编号 1 所示），输入图像大小为 5×5×16，用 5×5 的过滤器对它进行卷积

操作，过滤器实际上是 5×5×16，因为在卷积过程中，过滤器会遍历这 16 个通道，所以这两处的

通道数量必须保持一致，输出结果为 1×1。假设应用 400 个这样的 5×5×16 过滤器，输出维度就

是 1×1×400，我们不再把它看作一个含有 400 个节点的集合，而是一个 1×1×400 的输出层。从数

学角度看，它和全连接层是一样的，因为这 400 个节点中每个节点都有一个 5×5×16 维度的过滤

器，所以每个值都是上一层这些 5×5×16 激活值经过某个任意线性函数的输出结果

（3）、用的是 1×1 卷积，假设有 400 个 1×1 的过滤器，在这 400 个过滤器的作用下，下一层的

维度是 1×1×400，它其实就是上个网络中的这一全连接层。最后经由 1×1 过滤器的处理，得到一

个 softmax 激活值，通过卷积网络，最终得到这个 1×1×4 的输出层

通过卷积实现滑动窗口对象检测算法

（1）、假设输入给卷积网络的图片大小是 14×14×3，测试集图片是 16×16×3，现在给这个输入

图片加上黄色条块，在最初的滑动窗口算法中，你会把这片蓝色区域输入卷积网络（红色笔

标记）生成 0 或 1 分类。接着滑动窗口，步幅为 2 个像素，向右滑动 2 个像素，将这个绿框

区域输入给卷积网络，运行整个卷积网络，得到另外一个标签 0 或 1 。继续将这个橘色区域

输入给卷积网络，卷积后得到另一个标签，最后对右下方的紫色区域进行最后一次卷积操作。

在这个 16×16×3 的小图像上滑动窗口，卷积网络运行了 4 次，于是输出了了 4 个标签

（2）、假设剪切出这块区域（编号 1），传递给卷积网络，第一层的激活值就是这块区域（编号

2），最大池化后的下一层的激活值是这块区域（编号 3），这块区域对应着后面几层输出的右上

角方块（编号 4，5，6）。所以该卷积操作的原理不需要把输入图像分割成四个子集，分别执行前

向传播，而是把它们作为一张图片输入给卷积网络进行计算，其中的公共区域可以共享很多计

算（通过共享计算一次性得出迭代四个窗口的结果），就像这里看到的这个 4 个 14×14 的方块一样

（3）、滑动窗口的实现过程，在图片上剪切出一块区域，假设它的大小是 14×14，把它输入到卷

积网络。继续输入下一块区域，大小同样是 14×14，重复操作，直到某个区域识别到汽车

5、Bounding Box 预测（Bounding box predictions）

（1）、解决基于卷积实现的滑动窗口对象检测算法中精准边界框的问题

（2）、采用YOLO 算法解决上述算法存在的问题

6、交并化

（1）、评价定位算法是否准确

7、非极大值抑制

（1）、算法可能对同一个对象做出多次检测，所以算法不是对某个对象检测出一次，而是检测出

多次。非极大值抑制这个方法可以确保算法对每个对象只检测一次

（2）、（右边车辆）中是 0.9，然后就说这是最可靠的检测，所以就用高亮标记，就说这里找到

了一辆车。这么做之后，非极大值抑制就会逐一审视剩下的矩形，所有和这个最大的边框有很高交

并比，高度重叠的其他边界框，那么这些输出就会被抑制。所以这两个矩形𝑝𝑐分别是 0.6 和 0.7，

这两个矩形和淡蓝色矩形重叠程度很高，所以会被抑制，变暗，表示它们被抑制了

（3）、逐一审视剩下的矩形，找出概率最高，𝑝𝑐最高的一个，在这种情况下是 0.8，认为这里检

测出一辆车（左边车辆），然后非极大值抑制算法就会去掉其他 loU 值很高的矩形。所以现在每个

矩形都会被高亮显示或者变暗，如果直接抛弃变暗的矩形，那就剩下高亮显示的那些，这就是最

后得到的两个预测结果

（4）、非最大值意味着只输出概率最大的分类结果，但抑制很接近，但不是最大的其他预测结

果，所以这方法叫做非极大值抑制

8、Anchor Boxes

（1）、一个格子检测多个对象

9、YOLO算法

（1）、如果使用两个 anchor box，那么对于 9 个格子中任何一个都会有两个预测的边界框其

中一个的概率𝑝𝑐很低。但 9 个格子中，每个都有两个预测的边界框，比如得到的边界框是是这样

的，注意有一些边界框可以超出所在格子的高度和宽度（编号 1 所示）。接下来抛弃概率很低的

预测，去掉这些神经网络，这里很可能什么都没有，所以需要抛弃这些（编号 2 所示）

（2）如果有三个对象检测类别，检测行人，汽车和摩托车，对于每个类别单独运行非极大值抑

制，处理预测结果所属类别的边界框，用非极大值抑制来处理行人类别，用非极大值抑制处理车子

类别，然后对摩托车类别进行非极大值抑制，运行三次来得到最终的预测结果。所以算法的输出最

好能够检测出图像里所有的车子，还有所有的行人（编号 3 所示）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
目标检测学习

如何检测特征点（以人的部位为例）（1）、准备一个卷积网络和一些特征集，将人脸图片输入卷积网络，输出 1或0， 1 表示有人脸，0 表示没有人脸。然后输出（𝑙1𝑥𝑙1𝑦……直到（𝑙64𝑥𝑙64𝑦（2）、这里有129个输出单元，其中1表示图片中有人脸，因为有64个特征，64×2=128所以最终输出128+1=129个单元，由此根据这128个人脸特征实现对图片的人脸检测和定位，或者表情识别这些更加复杂的操作。
复制链接

扫一扫

专栏目录

Q渡劫 CSDN认证博客专家 CSDN认证企业博客

码龄4年

154: 原创

7175: 周排名

13万+: 总排名

14万+: 访问

: 等级

1884: 积分

5088: 粉丝

203: 获赞

27: 评论

607: 收藏

私信

关注

热门文章

分类专栏

经典原文模型 7篇
Python 4篇
Pytorch 14篇
Tranformers 13篇
深度学习 13篇
机器学习 12篇
操作系统 7篇
Opencv 1篇
计算机网络
Qt 5篇
数据结构 23篇
STL 11篇
C++ 17篇
C 12篇
算法 12篇
Linux 2篇
SpringBoot 10篇
Java 1篇
数据库 5篇

最新评论

多头注意力机制
水冰月地球分月: 请问多头注意力机制是计算的每个token对其他token的相关性那么能否也得出每个token对多头注意力机制后的序列向量的注意力权重呢
整数n转换为字符串
GHYJune: 你这也太新了，先看看基础语法吧
整数n转换为字符串
霸气的灯塔: 就是前面您画了一个n值的表格，我可以把表格的前两格n写成i更直观吗
整数n转换为字符串
霸气的灯塔: 就是其实后面的n就是i的意思是吗
整数n转换为字符串
Q渡劫: n的值修改是通过递归函数调用的

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Q渡劫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。