一维时序数据_2018年时序行为检测综述(一)

2018年时序行为检测综述

[1] Rethinking the Faster R-CNN Architecture for Temporal Action Localization(2018CVPR)

  • 简介:谷歌的一篇文章,思路类似于Faster R-CNN,但基于视频主要有三个方面的改动:

f62aa49e944233858746e16759f45d3c.png

Receptive Field Alignment:

因为时序行为的时间长短不一(有的几秒,有的一分钟),所以在进proposal generation的时候不能用相同的感受野。如下图左所示:

93b2f6107bb32b50c486dd53e1e12853.png

那怎么才能获得野想要的感受野s呢,文章采用max-pooling和Dilated convolutions来使感受野达到与anchor一样的大小:

9b60e14b4d1752110f50d41b6a87e941.png

Context Feature Extraction:

为了获得前文和后文的信息,必须扩大原来的感受野,因此本文在图三的基础上使用了双倍的dilation rate,并且在初始的pooling上也使用2倍的kernel size,如下图所示:

0224b8351f382851d11906ce0c734e76.png

同样在soi pooling的时候也融合了动作前文和后文的信息:

763d77aad3686da38ab8bcb6aad9468e.png

Late Feature Fusion:

f636b9b31c02bfd757edefbcc49e21b5.png

对RGB和光流的feature map通过两个不同网络后进行fusion

  • 结果:
    • THUMOS14 上的mAP@0.5 为 42.8%

[2] One-shot Action Localization by Learning Sequence Matching Network(2018CVPR)

  • 思路:本文提出了一种基于Matching Network的one-shot方法应用于时序行为检测,主要有三个子网络组成,具体结构如下:

2604ed3bec10f1f8e434d142522a8c41.png

不同类别的少量样本和通过用sliding-window在未修剪的视频产生proposal分别经过Video encoder network获得固定长度特征。这些特征有不同行为的proposal和样本组成。在每个time step中,每对proposal和样本通过similarity network产生correlation score,并用这些score合成一个correlation score矩阵。最后用labeling network基于该矩阵预测每proposal的类别。

Video encoder network:

3ae6965f14b958dccc7fa681c9796c2d.png

将一个视频分成S个片段,每个片段用使用TSN编码,最后用LSTM来产生最后的特征。LSTM采用ranking loss来训练。

Similarity network:

0f5012a7af16d04af93c29189d82d5fa.png

为训练的样本,每个训练样本在经过Video Encoder后获得特征表示,
表示
的编码向量,FCE表达如下:

34011e36058d6cb4eccc154f307bac1f.png

FCE采用的是双向LSTM获得

和前后的信息。

9ac23abb942fcd090f1ae8977fb3be36.png

58a72881c2fa0f1b22b3e707b33f71d3.png

00c5a47376678d034839bbe6a603c462.png

最终通过上面的式子获得proposal和样本的相似度。

Labeling network:

21202bb69321b4bb2095700cc1a64dc7.png

表示样本,
表示proposal,通过连接
可以获得correlation matrix,通过大小为
的窗口在correlation matrix上滑动来比较每个样本的距离获得proposal的probability,这样做的好处可以考虑上下文的信息。如果一个proposal和某个样本的correlation很大,表明该proposal属于该样本,如果与所有样本的correlation都很低,表示该proposal为背景。

训练:

采用元学习的方法来训练,损失函数如下:

58453cef2802f6e4c44cb9bed201314a.png

924bde2001c90a6ad1ff29a9ba5f257c.png

dff39a47e96dd8f43fb8954919ab5974.png

Pretraining for Video Encoder&Similarity Net:

因为Video encoder 和 similarity network中有许多参数,因此对其进行预训练。在训练的时候仅使用trimmed的数据。在预训练的时候采用rank loss

454ff0a75889f22d33e1f128f551d48e.png

9cba1529c6423344efe57f385c60dc37.png

154cde36ccfb53f65be9f291a3e06d15.png
  • 结果:
    • THUMOS14 上的mAP@0.5 为 13.6%(样本为1)

[3] Action Search: Spotting Actions in Videos and Its Application to Temporal Action Localization(2018ECCV)

  • 简介:本文提出了一个新的任务:action search,即在一个视频序列中快速找到行为的位置,同时本文分别在AVA和THUMOS14 的基础上提出了用于该任务的数据库Human Searches。

6240e2478b73e1842851eccded40119b.png
  • 思路:本文的网络结构如下:

1444905db2474ea1867d390abfcb7f33.png

输入一段视频片段

输出一个时序位置的序列

在每一步,首先通过Visual Encoder提取

的特征
为 LSTM的输出。对第i的LSTM,输入
,输出

LOSS:

885e4cee03e2e20e9d73f4fcbeaea9d6.png
  • 实验结果
    • THUMOS14 上的mAP@0.5 为 30.8%

[3] BSN: Boundary Sensitive Network for Temporal Action Proposal Generation (2018ECCV)

  • 简介:本文主要解决的是proposal的生成问题。主要采用的是bottom-up的方法,即分别生成starting和ending的概率序列,然后基于这个概率序列生成proposals,最后评估每个proposal的分数,如下图所示:

748695ed664d0b2722b33ac2298ec110.png

Visual Encoding的过程采用的是TSN的方法。

Boundary-Sensitive Network:

由三个部分组成:Temporal evaluation module,Proposal generation module,proposal evaluation module。

在Temporal evaluation module,用三层卷积网络生成每个时序位置的开始,结束和动作的概率。在Proposal generation module,生成候选的proposal,并且构造相应的proposal-level feature。对于构造候选proposal的方法:1.高于0.9的阈值;2.在某个位置高于前面和后面的概率;如下图所示:

e5d53f58ccd674baa8fb5c4886adc108.png

对于每个构造的候选proposal,定义三个区域,分别为中间区域

,开始区域
和结束区域
。通过线性差值采样的方式获得Boundary-Sensitive Proposal (BSP) feature,如下图所示:

b76a581ac31331ab567749716fc20bc0.png

最后,在Proposal evaluation module对每个候选的proposal进行评估

  • 实验结果
  • THUMOS14 上的mAP@0.5 为 36.9%

[4] CTAP: Complementary Temporal Action Proposal Generation (2018ECCV)

  • 简介:本文的思路比较明确,考虑到actionness score在某些分数偏低的时候会漏检proposal,于是融合了sliding window,当
    较低的时候表明为漏检的proposal:

e5349e845dde4145abf3c840567092c3.png
  • 实验结果
  • THUMOS14 上的mAP@0.5 为 29.9%

[5] Online Detection of Action Start in Untrimmed,Streaming Videos (2018ECCV)

  • 简介:这篇文章并不是时序行为检测的,但比较有意思就列出来了。本文提出了一个新的任务:Online Detection of Action Start (ODAS),即行为开始时间的检测。如下所示:

5e995b105c3e367a30e87674c0c35d7f.png

作者认为ODAS主要有三个挑战:1)Action Start和背景很相似; 2)start window会掺杂背景和行为的信息; 3)每个action实体只有很少的start window训练样本。

cc1c92d2de1deabf2e0368e7d2ba5f4a.png

为了解决这些问题提出了三个方法:

Adaptively Sample the Training Data:

在训练的过程中,尽可能多的自适应采样start windows。

Model the Temporal Consistency:

考虑到following-up windows和start windows有很大的相似度,所以通过分别提取两个window的特征,比加入

similarity。这样做也能很好地区分start windows和background。

Generate Hard Negative Samples via GAN:

本文提出Hard negatives,即在特征空间与start windows仅有一点不同。为了区分这两个,作者用GAN生成hard negatives,并于之前的一起训练。具体网络结构如下:

7773b42e4c5ac9a5741b16a5271bc951.png
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值