Anchor Box理解

最新推荐文章于 2022-12-02 19:38:53 发布

天才狂想者

最新推荐文章于 2022-12-02 19:38:53 发布

阅读量1k

点赞数 1

分类专栏：目标识别神经网络

本文链接：https://blog.csdn.net/sinat_36391198/article/details/102637431

版权

神经网络同时被 2 个专栏收录

13 篇文章 1 订阅

订阅专栏

目标识别

10 篇文章 0 订阅

订阅专栏

在目标检测（Object Detection）之中，有两个重要目的。一是判断出图片中物体的类别。

如图所示，这是用卷积神经网络做的物体类别识别，图片左边是待识别的图片，一个银色的小轿车。中间位置是我们构建的CNN卷积层。右边是我们的DNN全连接层以及最后的结果。可以看到最后的结果中，所属car的输出值最大，其次是truck等等。这个结果表明这个图片被我们神经网络识别为car。

目标检测的第二个重要目的是检测框（bounding box）的寻找。而这个也是目标检测的难点所在。在传统方法中，我们采取遍历滑动窗口的方式去寻找合适的所有可能的检测框，但是传统方法过于费时费力，且依赖于特定的环境。而基于深度学习方法优势如何确定检测框的大小，比例呢？这就有了Anchor Box，无论是在YOLO还是SSD的算法中，都用到了这个算法。Anchor的主要思想是基于一个点的寻找。一般来说，原始图像经过若干层卷积池化以及其他处理后，我们选择一个个的滑动窗口（一般只考虑窗口中心点）或者直接选择所有的像素点（看处理后的规模），然后以该像素点为中心，不同长宽比例以及大小进行框的选取，如下图所示：

比如说我们anchor选取9种不同的长宽比，anchor的大小设置3种规模。我们也可以计算多层的feature map（卷积、池化处理后的数据），然后在不同大小的feature map上anchor选取9种不同的长宽比，而anchor的大小都只在当前层上固定。这样子一来，就可以考虑到感受野（通俗来说就是某层feature map的某个数据点有多少上层数据点映射而来）大小问题。

天才狂想者

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Anchor Box理解

在目标检测（Object Detection）之中，有两个重要目的。一是判断出图片中物体的类别。如图所示，这是用卷积神经网络做的物体类别识别，图片左边是待识别的图片，一个银色的小轿车。中间位置是我们构建的CNN卷积层。右边是我们的DNN全连接层以及最后的结果。可以看到最后的结果中，所属car的输出值最大，其次是truck等等。这个结果表明这个图片被我们神经网络识别为car。 ...
复制链接

扫一扫