MPN

论文地址

Introduce

本篇论文是Facebook AI的工作,作者改进了目标检测的方法,在COCO数据集上进行实验,相比Seletive Search方法的fast R-CNN,将实验效果进一步提升了66%,在小物体上提高了4倍。作者的改进主要在以下三点:

  • 使用skip connections 融合多层的信息。
  • 使用foveal structure 考虑物体的上下文信息。
  • 使用integral loss函数,提高了位置的精准度。

之前的论文,作者一般都会采用PASCAL和ImageNet数据集进行实验,一般都能做到不错的效果,其中PASCAL都能达到85%的实验效果了,但是在COCO数据集上,所有的方法都表现不好。COCO数据集主要有以下特点: 物体尺度范围比较大,各种大大小小的物体都有,小物体很多,很多方法都在小物体上表现很差,并且COCO的评价标准更为严格。本篇作者就直接提高游戏难度,在高难度的COCO上进行实验,下面详细介绍作者的三个主要改进工作。

Method

目标检测的主要过程就是,提取region proposal,利用CNN提取proposal 特征进行分类和边框回归。本文也沿袭了这一过程,在Fast R-CNN之前的工作,一般来说,都是使用Selective Search,MultiBox这样的利用图像颜色,边缘信息提取region proposal,后来提取区域夜用CNN来替代,本文中作者采取了DeepMask提取区域,这里DeepMask使用VGG网络生成region proposal。接下来就是将region proposal信息传入网络中,提取特征,分类和定位。整个网络提取region proposal以后的过程如下图所示:


这里写图片描述

Foveal Structure

在目标检测中,目标所在的上下文信息对目标的识别有很大帮助,比如说,一个飞机周围的上下文信息一般是天空或者陆地,如果一个飞机出现在一个动物园里,这种可能性就很小了。为了融合上下文信息,作者采用了区域裁剪的方法,在原始的region proposal中心位置,裁剪区域尺度为1×四种不同倍数的区域,然后进行RoI Pooling,将输出的信息拼接一起,用来分类,就可以得到和上下文相关的信息了。

Skip Connection

以Fast R-CNN为例,使用VGG网络,在conv5层以后,经过一系列的卷积和pooling,特征已经缩小了16倍,一个32*32大小的区域到conv5以后就变成了2*2大小,16*16的区块就变成了1个像素点了,RoI pooling上采样到7*7的时候,很多信息已经损失了,这也是很多目标检测方法在小物体上表现很差的原因。前面已经提到,COCO数据集中有很多小物体,所以直接使用conv5的特征是没法work的。作者使用了conv3,conv4,conv5的信息,使用figure1这种方式进行连接,为了特征降维,作者使用1*1的卷积。

Integral loss

Fast R-CNN的损失函数如下所示:

L(p,k,t,t)=Lcls(p,k)+λ[k1]Lloc(t,t)(1)L(p,k∗,t,t∗)=Lcls(p,k∗)+λ[k∗≥1]Lloc(t,t∗)(1)

Experiment

最后贴几张对比实验的结果:


这里写图片描述
这里写图片描述
这里写图片描述

Conclusion

论文作者提出了多尺度,融合上下文这两种在16年cvpr的hyperNet,ION也见过类似的思想,但是目标函数进行积分处理,的确很有创新的地方。

Reference

A MultiPath Network for Object Detection Sergey Zagoruyko, Adam Lerer, Tsung-Yi Lin?, Pedro O. Pinheiro, Sam Gross, Soumith Chintala, Piotr Dollár

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值