2018年时序行为检测综述
[1] Rethinking the Faster R-CNN Architecture for Temporal Action Localization(2018CVPR)
- 简介:谷歌的一篇文章,思路类似于Faster R-CNN,但基于视频主要有三个方面的改动:
Receptive Field Alignment:
因为时序行为的时间长短不一(有的几秒,有的一分钟),所以在进proposal generation的时候不能用相同的感受野。如下图左所示:
那怎么才能获得野想要的感受野s呢,文章采用max-pooling和Dilated convolutions来使感受野达到与anchor一样的大小:
Context Feature Extraction:
为了获得前文和后文的信息,必须扩大原来的感受野,因此本文在图三的基础上使用了双倍的dilation rate,并且在初始的pooling上也使用2倍的kernel size,如下图所示:
同样在soi pooling的时候也融合了动作前文和后文的信息:
Late Feature Fusion:
对RGB和光流的feature map通过两个不同网络后进行fusion
- 结果:
- THUMOS14 上的mAP@0.5 为 42.8%
[2] One-shot Action Localization by Learning Sequence Matching Network(2018CVPR)
- 思路:本文提出了一种基于Matching Network的one-shot方法应用于时序行为检测,主要有三个子网络组成,具体结构如下:
不同类别的少量样本和通过用sliding-window在未修剪的视频产生proposal分别经过Video encoder network获得固定长度特征。这些特征有不同行为的proposal和样本组成。在每个time step中,每对proposal和样本通过similarity network产生correlation score,并用这些score合成一个correlation score矩阵。最后用labeling network基于该矩阵预测每proposal的类别。
Video encoder network:
将一个视频分成S个片段,每个片段用使用TSN编码,最后用LSTM来产生最后的特征。LSTM采用ranking loss来训练。
Similarity network:
FCE采用的是双向LSTM获得
最终通过上面的式子获得proposal和样本的相似度。
Labeling network:
训练:
采用元学习的方法来训练,损失函数如下:
Pretraining for Video Encoder&Similarity Net:
因为Video encoder 和 similarity network中有许多参数,因此对其进行预训练。在训练的时候仅使用trimmed的数据。在预训练的时候采用rank loss
- 结果:
- THUMOS14 上的mAP@0.5 为 13.6%(样本为1)
[3] Action Search: Spotting Actions in Videos and Its Application to Temporal Action Localization(2018ECCV)
- 简介:本文提出了一个新的任务:action search,即在一个视频序列中快速找到行为的位置,同时本文分别在AVA和THUMOS14 的基础上提出了用于该任务的数据库Human Searches。
- 思路:本文的网络结构如下:
输入一段视频片段
输出一个时序位置的序列
在每一步,首先通过Visual Encoder提取
LOSS:
- 实验结果
- THUMOS14 上的mAP@0.5 为 30.8%
[3] BSN: Boundary Sensitive Network for Temporal Action Proposal Generation (2018ECCV)
- 简介:本文主要解决的是proposal的生成问题。主要采用的是bottom-up的方法,即分别生成starting和ending的概率序列,然后基于这个概率序列生成proposals,最后评估每个proposal的分数,如下图所示:
Visual Encoding的过程采用的是TSN的方法。
Boundary-Sensitive Network:
由三个部分组成:Temporal evaluation module,Proposal generation module,proposal evaluation module。
在Temporal evaluation module,用三层卷积网络生成每个时序位置的开始,结束和动作的概率。在Proposal generation module,生成候选的proposal,并且构造相应的proposal-level feature。对于构造候选proposal的方法:1.高于0.9的阈值;2.在某个位置高于前面和后面的概率;如下图所示:
对于每个构造的候选proposal,定义三个区域,分别为中间区域
最后,在Proposal evaluation module对每个候选的proposal进行评估
- 实验结果
- THUMOS14 上的mAP@0.5 为 36.9%
[4] CTAP: Complementary Temporal Action Proposal Generation (2018ECCV)
- 简介:本文的思路比较明确,考虑到actionness score在某些分数偏低的时候会漏检proposal,于是融合了sliding window,当
较低的时候表明为漏检的proposal:
- 实验结果
- THUMOS14 上的mAP@0.5 为 29.9%
[5] Online Detection of Action Start in Untrimmed,Streaming Videos (2018ECCV)
- 简介:这篇文章并不是时序行为检测的,但比较有意思就列出来了。本文提出了一个新的任务:Online Detection of Action Start (ODAS),即行为开始时间的检测。如下所示:
作者认为ODAS主要有三个挑战:1)Action Start和背景很相似; 2)start window会掺杂背景和行为的信息; 3)每个action实体只有很少的start window训练样本。
为了解决这些问题提出了三个方法:
Adaptively Sample the Training Data:
在训练的过程中,尽可能多的自适应采样start windows。
Model the Temporal Consistency:
考虑到following-up windows和start windows有很大的相似度,所以通过分别提取两个window的特征,比加入
Generate Hard Negative Samples via GAN:
本文提出Hard negatives,即在特征空间与start windows仅有一点不同。为了区分这两个,作者用GAN生成hard negatives,并于之前的一起训练。具体网络结构如下: