[Context and Structure Mining Network for Video Object Detection]阅读笔记

Abstract

  1. 强调目前主导视频目标检测(VOD)的是建议框级的特征聚合(proposal-level feature aggregation)
  2. 指出当前两个主要的问题。
    ①再当前常用的二阶段网络RPN忽略了对目标分类有帮助的上下文信息(context information)。
    ②当前VOD采用的特征融合都以整个建议框(proposal)为单位进行融合,这样没有考虑框中间的结构信息。
    会导致目标发生遮挡或者姿态改变时,两帧间的相似性较差。
  3. 为了解决这些问题:
    ①提出本文的模型CSMN
    ②编码了全局的时间-空间-上下文信息聚合在目标特征图中。
    ③每个proposal都被分成了几个patch来捕捉目标的结构信息。
    ④每个patch都会学习一个权重用于指示它在信息聚合时作用几何,如发生遮挡的patch可以低权重。

Introduction

  1. 首先先回忆了视频目标检测的历史
    ·2017 FGFA 光流方法
    ·2018 MANet 特征融合
    ·2017 D&T 相邻帧之间信息(追踪)
    ·2018 STSN 跨时域可变性卷积
    ·2019 PLSA 稀疏步幅局部跨镇特征空间对应关系
    ·还有其他后处理方法如seq-nms等
    ·SELSA 序列及语义聚合(就是融合帧信息,MEGA是它的升级版,作者说实验时基于这个basline的)
    ·MEGA 融合临近全局帧+记忆模块(作者github里说是根据MEGA改的,但是我没找到代码,就几个介绍文件)
    ·2020HVR-Net 视频间帧信息
  2. 本文贡献
    ·作者将proposal分成N个不重叠的patch(文中N=9)。
    ·特征融合时不是考虑两个整体proposal,而是patch,以缓解姿势偏差。
    ·给每一个patch以权重,更关注非遮挡的patch。

Related work

1.利用二阶段目标检测构建(实验中baseline是SELSA,但是代码地址里只有几个介绍文件和readme,说基于MEGA改的)。
2.本文方法属于VOD中的融合时序信息,融合时序信息又分为后处理和训练中融合帧信息,本文属于后者。

Proposed Method

1.overview

首先本文给当前检测的帧叫法为target frame,用于信息聚合的辅助帧叫作support frame。

1.骨干网络使用resnet101,conv4用于输入rpn,conv5用于输入一个stCIE(时间-空间-上下文信息编码)编码出一个新的feature map再和rpn的结果共同生成proposal。
2.生成的proposal会通过SPFA(Structure-base Proposal Feature Aggregation结构信息建议框特征融合)

具体流程可以看这个图,更清晰:
在这里插入图片描述

2.Sptial-temporal context Information Encoding(stCLE)

这个是基于non-local提出的一个模块,灵感来源于attention,作者把这个模块拓展到了时间空间的维度(本来就是考虑上下文的一个模块)。
关于non-local有一个博文说的非常清楚:【论文笔记】Non-local Neural Networks
关于作者图和改进,是这样实现的,将需要检测的proposal作为target pixel feature(我的理解是就只有一项像素,因为还没看到代码,可能理解有偏差),当前feature map的其他内容作为支持信息,包括其他帧的信息也为支持信息,蓝色为support pixel feature,红色为target,如下图:
在这里插入图片描述
最终的结构图是这样的:
在这里插入图片描述
其中eq.1是计算相似度的函数,具体矩阵每一个点的值怎么计算式子如下:
在这里插入图片描述
个人理解,通过这个式子计算的相=相似度,将系数控制在了1一下,并且数值都不算大,在当作系数乘support信 息时可以充分将其缩小,最后累加的时候起到参考作用而不至于起到决定作用。

关于我为什么觉得是一个像素,因为原文说了这样一段话:
在这里插入图片描述

3.Structure-based Proposal Feature Aggregation(SPFA)

大体思路:其他的信息融合方式的视频目标检测譬如MEGA,计算时以proposal为单位,而作者做出的改变时以patch为单位,以应对帧间遮挡姿态变化等状况。
先上结构图:
在这里插入图片描述
其中一个合并头的操作是这样的,target的patch计算和M个support proposal的相似度,然后乘以原输入的support proposal进行逐元素相加操作聚合成一个最终的结果,最终的输出的结果是宽高同proposal一样的数据(3*3)。这一组数据代表了support proposal支持聚合后target patch的信息,然后我们对这一组信息训练了一个权重参数W,W代表了这个patch在target proposal的重要程度。
在这里插入图片描述
下面看一下这个相似度S是怎么计算的,这幅图很好理解,针对于每一个support proposal,S只是一个数:
在这里插入图片描述
上述的大体思路了解之后,结合下面的流程图中的数据的shape就可以帮助我们加深理解了:
在这里插入图片描述
最开始的第一步:左边的target proposal分成N个patch,右边的support proposal则复制N份。
第二步:每一组support proposal(M个)计算同一个target patch的相似度,相乘原support proposal得到融合信息。
第三步:训练了一个权重W控制N组target patch和support proposal(M个)融合信息的重要程度。
第四步:得到的加权融合信息同原来的target proposal信息逐元素相加的aggregated feature。


实验

1.这个实验证明了两个模块的有效性。在这里插入图片描述
2.这个实验证明了stCIE融合时间维度的特征对视频目标检测是有帮助的。其中作者把数据集10帧以内的ground truth的同一物体的IOU叫做运动IOU,这个IOU比较大代表物体运动慢,以此为根据,作者将验证集分了三个档次slow/medium/fast来验证模型在物体不同运动速度的效果。
在这里插入图片描述
3.这个实验证明了,给target patch权重参数w是有效的,Fixed指参数是固定的,不是学习出的。
在这里插入图片描述
4.这个实验证明了不同的支持帧数量对结果的影响。
在这里插入图片描述
5.这个实验验证了N(proposal分成几份)选取什么值最合适。
在这里插入图片描述
6.这组是同视频目标检测方法的综合对比。
在这里插入图片描述

效果

在这里插入图片描述

上图中,作者说检测的效果体现了stCIE的效果,就比如这个海龟,因为上下文的水让模型更确信它是一只龟。
在这里插入图片描述
这张图片体现了SPFA的作用,看这个赛车发生了遮挡,在普通的proposal融合中效果并不佳,spfa起作用的具体原因可以看下图。
在这里插入图片描述
上图中,黄色字体是当前patch的权重,绿色数字是这个support proposal同当前patch的相似度,结果显而易见,遮挡的给了更低的权重。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值