「Computer Vision」Note on Grid R-CNN

QQ Group: 428014259
Sina Weibo:小锋子Shawn
Tencent E-mail:403568338@qq.com
http://blog.csdn.net/dgyuanshaofeng/article/details/84667027

作者:Xin Lu, Buyu Li, Yuxin Yue, Quanquan Li, Junjie Yan
单位:SenseTime Group Limited

0 摘要

提出网格R-CNN,其利用了网格引导定位机制。不同于传统基于回归(offset)的方法,Grid R-CNN显式捕捉空间信息,并且具有全卷积结构的位置敏感特性(position sensitive property)。【heatmap回归的优势】这句话"instead of using only two independent points",是为了指出CornerNet的预测不准确,以及本文与CornerNet的不同:本文使用多点(9点)监督。在COCO上,与Faster R-CNN ResNet-50 FPN相比,在交叠率为0.8时,提升4.1%,在交叠率为0.9时,提升10.0%。【这里提到高交叠率这个条件,意味着什么?】

1 介绍

检测=分类+定位。在COCO上,与Faster R-CNN ResNet-50 FPN相比,Grid R-CNN好2.2%。

2 相关工作

CornerNet是自底向上一阶段方法。
Grid R-CNN是自顶向下二阶段方法。

3 Grid R-CNN

如图1所示,为网格R-CNN的框架概要。

图 1:Grid R-CNN

RoI特征用于分类和定位。定位不再使用基于回归相对位移的传统方法,而采用预测概率热图去确定检测框。

3.1 网格引导定位

下周细看

3.2 网格点特征融合

下周细看

3.3 扩展区域映射

下周细看

3.4 执行细节

4 实验

4.1 消融研究

多点监督 如原文Table 1,点越多,AP越高,但是会饱和。
网格点特征融合 如原文Table 2,融合模块有效。【暗示我们这些融合方式可以参考姿态估计论文】
扩展区域映射 如原文Table 3,简单扩边,对大物体有提升,可是对小物体有性能抑制影响。因此,扩展区域映射是需要的。对大物体具有较大的提升。

4.2 与世界一流方法比较

Pascal VOC 如原文Table 4,Grid好于FPN 3.6%AP,好于R-FCN 9.7%。
COCO 如原文Table 5,在ResNet-50, -101, -FPN上,Grid一致好于Faster。平均来说,大约有3个点提升。
COCO test-dev 如原文Table 6,Grid好于Mask和CornerNet,因为没有利用scaling和cascading,应该差于SNIP和Cascade。

4.3 分析和讨论

不同交叠率评价准则的准确率 如图5所示,在0.8和0.9的时候,网格R-CNN具有优势。而在0.5-0.7的时候,不具有优势。【原因是否是0.5-0.7,网格点碰触不到物体?还是Faster在足够准确的时候,offset难以提升?】本文作者的解释为分类分支影响了网格分支。

图 5:不同交叠率的准确率比较

不同类别的不同程度提升 如表7所示,提升较多的是长方形和类似长条形状的物体,比如键盘,手提电脑,电冰箱;下降较多或者不变的是圆形的物体,这些物体没有结构化边缘,比如球,碗,钟。未来会设计环形点去针对圆形的物体。

表7:提升和下降最多的前15类物体

定性结果比较 如原文Figure 6。

5 结论

scale selection,cascade techniques

[1] Grid R-CNN 2018 [paper]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值