一维时序数据_2018年时序行为检测综述（一）

最新推荐文章于 2024-04-16 09:51:23 发布

非奇莫属

最新推荐文章于 2024-04-16 09:51:23 发布

阅读量2.6k

点赞数

文章标签：一维时序数据

本文链接：https://blog.csdn.net/weixin_34270668/article/details/112585028

版权

2018年时序行为检测综述

[1] Rethinking the Faster R-CNN Architecture for Temporal Action Localization(2018CVPR)

简介：谷歌的一篇文章，思路类似于Faster R-CNN，但基于视频主要有三个方面的改动：

Receptive Field Alignment：

因为时序行为的时间长短不一（有的几秒，有的一分钟），所以在进proposal generation的时候不能用相同的感受野。如下图左所示：

那怎么才能获得野想要的感受野s呢，文章采用max-pooling和Dilated convolutions来使感受野达到与anchor一样的大小：

Context Feature Extraction：

为了获得前文和后文的信息，必须扩大原来的感受野，因此本文在图三的基础上使用了双倍的dilation rate，并且在初始的pooling上也使用2倍的kernel size,如下图所示:

同样在soi pooling的时候也融合了动作前文和后文的信息:

Late Feature Fusion：

对RGB和光流的feature map通过两个不同网络后进行fusion

结果：
- THUMOS14 上的mAP@0.5 为 42.8%

[2] One-shot Action Localization by Learning Sequence Matching Network(2018CVPR)

思路：本文提出了一种基于Matching Network的one-shot方法应用于时序行为检测，主要有三个子网络组成，具体结构如下：

不同类别的少量样本和通过用sliding-window在未修剪的视频产生proposal分别经过Video encoder network获得固定长度特征。这些特征有不同行为的proposal和样本组成。在每个time step中，每对proposal和样本通过similarity network产生correlation score，并用这些score合成一个correlation score矩阵。最后用labeling network基于该矩阵预测每proposal的类别。

Video encoder network：

将一个视频分成S个片段，每个片段用使用TSN编码，最后用LSTM来产生最后的特征。LSTM采用ranking loss来训练。

Similarity network：

为训练的样本，每个训练样本在经过Video Encoder后获得特征表示，

表示

的编码向量，FCE表达如下：

FCE采用的是双向LSTM获得

和前后的信息。

最终通过上面的式子获得proposal和样本的相似度。

Labeling network：

表示样本，

表示proposal，通过连接

可以获得correlation matrix，通过大小为

的窗口在correlation matrix上滑动来比较每个样本的距离获得proposal的probability，这样做的好处可以考虑上下文的信息。如果一个proposal和某个样本的correlation很大，表明该proposal属于该样本，如果与所有样本的correlation都很低，表示该proposal为背景。

训练：

采用元学习的方法来训练，损失函数如下：

Pretraining for Video Encoder&Similarity Net：

因为Video encoder 和 similarity network中有许多参数，因此对其进行预训练。在训练的时候仅使用trimmed的数据。在预训练的时候采用rank loss

结果：
- THUMOS14 上的mAP@0.5 为 13.6%（样本为1）

[3] Action Search: Spotting Actions in Videos and Its Application to Temporal Action Localization(2018ECCV)

简介：本文提出了一个新的任务：action search，即在一个视频序列中快速找到行为的位置，同时本文分别在AVA和THUMOS14 的基础上提出了用于该任务的数据库Human Searches。

思路：本文的网络结构如下：

输入一段视频片段

，

输出一个时序位置的序列

。

在每一步，首先通过Visual Encoder提取

的特征

，

为 LSTM的输出。对第i的LSTM，输入

,输出

。

LOSS：

实验结果
- THUMOS14 上的mAP@0.5 为 30.8%

[3] BSN: Boundary Sensitive Network for Temporal Action Proposal Generation (2018ECCV)

简介：本文主要解决的是proposal的生成问题。主要采用的是bottom-up的方法，即分别生成starting和ending的概率序列，然后基于这个概率序列生成proposals，最后评估每个proposal的分数，如下图所示：

Visual Encoding的过程采用的是TSN的方法。

Boundary-Sensitive Network：

由三个部分组成：Temporal evaluation module，Proposal generation module，proposal evaluation module。

在Temporal evaluation module，用三层卷积网络生成每个时序位置的开始，结束和动作的概率。在Proposal generation module，生成候选的proposal，并且构造相应的proposal-level feature。对于构造候选proposal的方法：1.高于0.9的阈值；2.在某个位置高于前面和后面的概率；如下图所示：