MultiBox 详解

最新推荐文章于 2024-10-06 20:36:47 发布

*青云*

最新推荐文章于 2024-10-06 20:36:47 发布

阅读量2.4k

点赞数 2

分类专栏：目标检测文章标签：神经网络深度学习计算机视觉人工智能

本文链接：https://blog.csdn.net/m0_45962052/article/details/104845125

版权

MultiBox是一种使用深度神经网络进行可扩展的目标检测方法，它改进了R-CNN的region proposal过程，降低了时间和空间复杂度。核心是利用CNN网络生成region proposals，同时提供每个框的置信度。论文中定义了新的loss函数，包括Bounding Box Loss和Confidence Loss，通过优化这两个损失函数实现了目标定位和置信度预测。此外，还介绍了三种优化方法，包括Ground Truth的聚类和最佳匹配优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

MultiBox 详解

Scalable Object Detection using Deep Neural Networks

论文链接

在 R-CNN 网络中，提取 region proposals 使用的是一种传统的基于搜索的策略，这种策略的时间复杂度高而且生成的 region proposals 数量很多，不利于后续网络对生成的 region proposals 进行分类。在这篇论文中，作者提出了一种利用深度学习的方法提取 region proposals，大大减少了时间复杂度和生成 region proposals 的数量。而且可以进行多目标的检测。为之后提出的各种利用 CNN 网络生成 region proposals 的方法奠定了基础。

其中作者的主要实现的功能就是：在不知道类别的情况下定位目标，并提供定位此目标的 confidence。可以理解为，在不知道要分几类的情况下，定位出来图片中所有可能的候选目标。

一、生成 Region proposals

这一步也是本论文的核心，即如何使用 CNN 网络生成 region proposals。注意：无论是生成 Region 还是进行分类，对于 CNN 网络部分，作者使用的都是 AlexNet。

作者定义了一个新的 loss，通过最优化这个新的 loss，实现了对目标的定位，以及提供了在此回归框下的目标的置信度（此时还不知道目标的类别，只是预测了它框住的是一个物体的概率）

（一）网络部分

网络输出的 region proposals 的数量是固定的，这个数量通过超参数 K 指定。在试验中，作者使用的 $K = 100$ 或 $K = 200$ 。我们将第 $i$ 个对象框，以及与其关联的置信度，设置为最后一层的节点值。对于每个生成的 region 都有5个值，其中两个坐标（2 x 2 = 4 个值），还有一个置信度（1 个值）

具体做法是，将两个输出层都连接到最后的隐藏层。其中，第一个输出层用于回归 Bounding Box，第二个输出层用于得到置信度。

（二）Bounding Box

将 Bounding Box 的左上角坐标，和右下角坐标设置为 4 个节点值。使用符号 $l_i$ 表示。其中 $l_i\in\mathbb{R^4}$ 。

其中坐标需要进行归一化，具体的做法是：点的 x 坐标除以图像的宽，点的 y 坐标除以图像的高。经过这样的处理，x, y 的值就相当于占整个图像的比例，就和图像的大小无关了。

（三）置信度

置信度代表，圈住的 Bounding Box 中的东西，是一个物体的概率（这里并不知道类别）。这个置信度，使用模型最后一层的一个节点值表示。符号记为： $c_i$ ，其中 $c_i\in[0,1]$ ，是通过 sigmoid 函数压缩网络输出数值得到。

（四）损失函数

数学符号表示：
（1） $K$ 表示生成的 Bounding Box 的数量
（2） $M$ 表示 ground truth 的数量
（3） $l_i$ 表示第 $i$ 个 Bounding Box 的左上角、右下角坐标的四个值。其中 $i\in\{1,2,3,...,K\}$
（4） $g_j$ 表示第 $j$ 个 ground truth 的左上角、右下角坐标的四个值，其中

最低0.47元/天解锁文章