【每日一网】Day20：A MultiPath Network for Object Detection（MPN）简单理解

最新推荐文章于 2022-06-22 09:19:59 发布

陈子文好帅

最新推荐文章于 2022-06-22 09:19:59 发布

阅读量298

点赞数 3

分类专栏：每日一网文章标签：算法 python 计算机视觉机器学习人工智能

本文链接：https://blog.csdn.net/dudu199806/article/details/112115694

版权

每日一网专栏收录该内容

30 篇文章 4 订阅

订阅专栏

A MultiPath Network for Object Detection

算法背景

作者改进了目标检测的方法，相比ss算法的fast RCNN，将实验效果进一步提升了66%，在小物体上提高了4倍。主要进行了如下改进
1、使用跨层链接融合了多层的信息
2、使用foveal structure考虑了物体的上下文信息
3、使用积分loss函数，提高了位置的精准度

算法流程

传统目标检测的主要流程是，提取Region proposal，利用cnn进行proposal的分类和边界框回归。本文也沿袭了这一个过程，在fast RCNN之前的工作，一般来说都是使用ss算法或者multibox这样利用图像颜色边缘信息提取Region proposal，后来提取区域使用cnn代替，本文作者采用了deepmask提取区域，这里deepmask使用vgg网络生成Region proposal，接下来将生成的Region proposal信息传入网络，提取特征，分类，定位，整个流程如下：
在这里插入图片描述

Foveal结构

在目标检测中，目标所在的上下文信息对目标的识别有很大的帮助，比如说，一个飞机周围的上下文信息一般是天空或者陆地，如果一个飞机出现在一个动物园里，这种可能性就很小了。为了融合上下文信息，作者采用了区域裁剪的方法，在原始的region proposal中心位置，裁剪区域尺度为1×，1.5×，2×，4×四种不同倍数的区域，然后进行RoI Pooling，将输出的信息拼接一起，用来分类，就可以得到和上下文相关的信息了。

跳跃链接

以Fast R-CNN为例，使用VGG网络，在conv5层以后，经过一系列的卷积和pooling，特征已经缩小了16倍，一个3232大小的区域到conv5以后就变成了22大小，1616的区块就变成了1个像素点了，RoI pooling上采样到77的时候，很多信息已经损失了，这也是很多目标检测方法在小物体上表现很差的原因。前面已经提到，COCO数据集中有很多小物体，所以直接使用conv5的特征是没法work的。作者使用了conv3，conv4，conv5的信息，使用figure1这种方式进行连接，为了特征降维，作者使用1*1的卷积。

积分loss

Fast R-CNN的损失函数如下所示：在这里插入图片描述
公式中 p表示预测的属于某类概率，k∗ 是真正的类别， t预测的边框位置， t∗是真正的边框位置。第一项代表分类的损失，后面的表示位置损失。那IoU阈值为50评价标准为例，当检测的边框和ground truth重合度大于50，说明预测正确，否则 k∗=0。
但是第一项存在以下的缺点，所有阈值大于的50的都是同等的，例如100%重合和50%重合都是正确。作者提出了改进方法，更高的重合度应该有更多的得分，作者提出的改进的分类损失函数如下：在这里插入图片描述
k∗ u 是不同阈值u对应的值，由于公式（2）是连续的积分，作者使用du = 5使用求和公式，修改的目标函数公式（3）所示：
实验中，选取n =6， u∈{50,55,…,75}。

陈子文好帅

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【每日一网】Day20：A MultiPath Network for Object Detection（MPN）简单理解

A MultiPath Network for Object Detection算法背景作者改进了目标检测的方法，相比ss算法的fast RCNN，将实验效果进一步提升了66%，在小物体上提高了4倍。主要进行了如下改进1、使用跨层链接融合了多层的信息2、使用foveal structure考虑了物体的上下文信息3、使用积分loss函数，提高了位置的精准度算法流程传统目标检测的主要流程是，提取Region proposal，利用cnn进行proposal的分类和边界框回归。本文也沿袭了这一个过程
复制链接

扫一扫