Online Action Detecition论文：GateHUB（CVPR2022）

AItairyang

已于 2022-08-03 08:54:09 修改

阅读量804

点赞数 1

分类专栏：论文阅读笔记文章标签：深度学习人工智能

于 2022-07-25 20:58:41 首次发布

本文链接：https://blog.csdn.net/qq_41573429/article/details/125976100

版权

2 篇文章 0 订阅

订阅专栏

GateHUB: Gated History Unit with Background Suppression for Online Action Detection

作者：Junwei Chen、Gaurav Mittal
机构：Microsoft
论文下载：link
代码：暂未公布
在线动作检测任务：目标在视频流中识别出当前帧的动作类别

Task:

Online Action Detection（OAD）

Dataset:

THUMOS

TVSeries

HDD

Contribution:

1.提出了在线动作检测的新方法 GateHUB（使用Transformer建模长期信息，RNN选择相关的信息进行编码）

2.提出了一个position-guided gated cross-attention机制（根据对当前帧预测的贡献程度，来增强或抑制历史特征）

3.同时使用Future-augmented History (FaH)（使用可获取的未来帧，增强历史特征）

4.提出了一个背景抑制目标函数（思想在于 背景类别和 动作类别应当区分对待）

Motivation：

1.认为并不是所有历史视频帧，都对当前帧的动作类别预测有帮助。并且一般的cross-attention机制，无法学习到历史帧对当前帧预测的信息贡献程度（提供信息的帧也可能具有较小的权重，如下图中左侧绿色框图）
不同cross attention对比

2.现有方法存在对 背景帧假阳性预测的问题

1）在线动作检测

1)Overview

思想：历史帧的信息贡献程度不是等同的

整体框架：3个创新 GHU + FaH + Background Suppression

任务说明：

GateHUB模型架构图

2)Gated History Unit based History Encoder

思想：结合 LSTM对信息选择的门控机制和 Transformer的长期建模能力

问题：现有方法采用cross-attention来降低计算复杂度，但一般的cross-attention不能学习到历史帧对OAD任务的信息贡献程度

方法：采用Gated History Unit（GHU）

①提取特征： $z^h=u(h)E+E_{pos}$ （ $u$ 代表特征提取器， $E$ 代表线性编码层， $E_{pos}$ 代表position encoding）
②gated cross-attention：（如上图(a)，区别主要在softmax前面增加了Gate操作）
- 使用 $z^h$ 生成 $K$ , $V$
- q（可学习的query encoding）生成 $Q$
- 根据 $z^h$ 计算position guided gating scores $G$ （学习出来的分数，用于校准注意力权重）
- 计算门控跨注意力操作
  $GHU_i=Softmax \left( {Q_i K{^T_i} \over \sqrt{d_k}}+G \right)V_i$
- GHU的输出最后经过N个self-attention层获得最终的历史编码特征

3)Future-augmented History

思想：虽然对于当前时刻，未来帧是不可见的，但是对于之前的历史帧其实存在相对其的未来帧。因此利用这些可见的未来帧进行特征增强。

方法：

提取特征时，采用当前帧和相对应的 $t_f$ 历史帧作为集合，用于特征提取
$u(h_t)= \begin{cases} u([h_i]{^t_{i=t-t_{ps}}}) & \text {if $t>-t_f$} \\ u([h_i]{^{t+t_f}_{i=t}}) & \text{if $t\leq-t_f$} \end{cases}$