Temporal Context Enhanced Feature Aggregation for Video Object Detection

论文链接:https://www.aaai.org/ojs/index.php/AAAI/article/view/6727 AAAI2020的一篇文章

主要贡献:按照文中的说法主要有三个方面:用一个 Temporal context enhanced aggregation module (TCEA) 来聚合视频序列中帧之间的时空信息,用DeformAlign module来对齐帧之间空间信息,这个感觉是在模仿STSN: Object Detection in Video with Spatiotemporal Sampling Networks中的做法(https://blog.csdn.net/breeze_blows/article/details/105323491),最后就是训练了一个temporal stride predictor来自动的学习训练过程中选择需要聚合的帧,而不同于原来一般采用的估计在reference fram周围以估计stride选择support frames

整体框架图如下图所示,stride predictor用来预测在reference frame附近选择support frame的stride s(t), deform Align用来对齐Ff+s(t),Ff-s(t)和ft之间的空间信息。最后将ft和deform Align对齐之后的两个feature一起用TCEA进行时空信息的聚合,聚合最后的特征用于rpn和最后的目标分类与回归。

 

首先是对于TCEA,如下图,从图中其实可以看到non local和CBAM的影子(https://blog.csdn.net/breeze_blows/article/details/104834567),先是进行temporary的聚合,然后进行spatial,分别是为了找到“when”和"where'的信息有用,然后聚合到reference frame的feature之中,流程看图比较容易看明白,其中在spatial attention的时候,max pool和ave pool之后的feature是直接concat在一起的,不同于CBAM中的相加,上采样就是采用的双线性插值。

对于文中提出的deform align,个人感觉和STSN: Object Detection in Video with Spatiotemporal Sampling Networks中的做法(https://blog.csdn.net/breeze_blows/article/details/105323491)很相似,就是用ft和fi融合之后的feature作为Deformable Convolutional Networks的offsets(https://blog.csdn.net/breeze_blows/article/details/104998875),进行deformable conv得到最后对齐之后的feature

 从公式上面看的话,这里的\theta应该就是上图中的offset,Δpn就是deformable conv中的偏移量,w应该就是卷积核。

 

对于Temporal Stride Predictor,原来视频目标检测中训练的时候在reference frame周围选择support frame的方法都是会固定一个stride,比如s0, 假设t为当前reference frame,另外的support frames就会在[t − s0, t, t + s0]这个范围内选择,本文的Temporal Stride Predictor认为应该根据视频序列, 这个Temporal Stride Predictor组成部分:two convolutional layers with 3 × 3 kernel and 256 channels, a global pooling, a fullyconnected layer and a sigmoid function,用reference frame和一帧support frame作为输入,得到一个deviation score,The deviation score is formally defined as the motion IoU, 训练的时候ground truth应该就是两帧中gt box之间的iou,如果score<0.7,就认为物体运动很快,stride设置为9; score ∈ [0.7, 0.9] , stride设置为24, score>0.9,stride设置为38,score越大证明iou越大则目标运动越慢,所以stride就越大。在测试的时候就用当前帧的前十帧计算score来判断目标速度,从而选取stride(In runtime, at reference frame t, ft and ft−10 are fed to this network to predict the motion speed of frame t.)

按照文中的描述,训练分为两个阶段,第一个阶段用于训练the DeformAlign module, and TCEA,每次从数据集中选三帧用于训练,stride固定为9,在第二个阶段除了temporal stride predictor的部分其他网络都被fixed了,即不进行backward的参数更新,训练的时候选取两帧,范围为[5,15]。

最后文中做了消融实验证明各个模块的作用,其实可以看出stride predictor的作用是最大的

与其他sota方法对比,不过很奇怪的是为什么没和2019年的方法进行对比呢

TCEet的temp post-proc的方法是Seq-NMS。

 

 

  • 3
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 时空动作检测是指在视频中检测和识别出特定的动作,同时确定其发生的时间和持续时间。这种技术可以应用于许多领域,如视频监控、体育比赛分析和人机交互等。它需要结合计算机视觉、机器学习和深度学习等技术,以实现准确和高效的动作检测。 ### 回答2: 随着视频数据日益增多,如何从视频中识别和理解行动是计算机视觉领域的一个重要研究方向。传统的视频动作识别往往只考虑整个视频的静态信息,而忽略了视频中的时间信息。因此,近年来,研究者们开始关注如何在视频中进行时间上的动作检测,也称为temporal action detectionTemporal action detection通常包括三个关键步骤:动作提议生成、动作分类以及开始和结束时间的回归。第一步,需要在视频中生成候选的动作框架,这些框架会被送到下一步进行动作分类和时间回归。第二步,对于每个候选框架,需要将其与定义好的动作类别进行分类,例如"打网球"或者"跑步"等。第三步,需要为每个动作框架预测开始和结束时间,从而得到完整的时间戳,指示该动作从哪个时间开始,持续多长时间。 值得注意的是,传统的做法通常需要精确的时间戳,而这对于复杂的动作探测并不总是可行。因此,最近的研究更侧重于标记时间模糊,利用模糊的定义来帮助模型更好地识别和分类动作。此外,现有的大多数temporal action detection方法都是基于深度神经网络的,如2D和3D CNN等。 总之,temporal action detection视频分析领域中的一个热门研究方向。它不仅可以用于视频内容分析,还可以应用于体育、安防、日志分析等领域。未来,我们可以期待更多的研究工作进一步提高这一领域的性能和应用。 ### 回答3: Temporal Action Detection(时序动作检测)是指通过视频序列中发生的连续动作进行分析和理解,进而在其中对目标动作进行检测的一种研究领域。时序动作检测是视频分析领域的一个热门研究方向,它试图从视频序列中自动识别和定位出特定动作的发生时刻和持续时间。 时序动作检测的研究难点在于,视频中的动作通常是不规则的,其持续时间、起止时间和动作速度等都可能不同。因此,其实现需要解决一系列技术问题,包括视频序列预处理、特征提取、动作表示、时间对齐、动作分类和检测等。 在视频序列预处理方面,需要进行视频采样、帧差分和轮廓提取等操作。在特征提取方面,需要考虑如何从视频序列中提取出区分不同动作的关键特征。常用的特征包括传统的HOG、MBH和HOF等特征,以及近年来流行的深度学习中的CNN和RNN等方法。动作表示方面,通常采用短时间动作片段(clip)或整个动作区间来表示动作。时间对齐方面,需要使用不同算法将动作片段与对应的标签对齐。动作分类方面,需要选择合适的分类器来进行动作分类和检测。目前常用的方法包括线性SVM、非线性SVM和随机森林等。 时序动作检测的应用非常广泛,包括视频检索、演员行为分析、交通监控、体育赛事分析、视频自动标注等。尽管在时序动作检测方面已经取得了很多进展,但仍需要使用更加先进的技术来提高检测精度和鲁棒性。未来,时序动作检测将成为视频智能分析,特别是人机交互等领域中重要而具有挑战性的任务。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值