GateHUB: Gated History Unit with Background Suppression for Online Action Detection
作者:Junwei Chen、Gaurav Mittal
机构:Microsoft
论文下载:link
代码:暂未公布
在线动作检测任务:目标在视频流中识别出当前帧的动作类别
目录
论文阅读
1.Abstract
-
Task:
- Online Action Detection(OAD) Dataset:
- THUMOS
- TVSeries
- HDD Contribution:
- 1.提出了在线动作检测的新方法 GateHUB(使用Transformer建模长期信息,RNN选择相关的信息进行编码)
- 2.提出了一个position-guided gated cross-attention机制(根据对当前帧预测的贡献程度,来增强或抑制历史特征)
- 3.同时使用Future-augmented History (FaH)(使用可获取的未来帧,增强历史特征)
- 4.提出了一个背景抑制目标函数(思想在于 背景类别和 动作类别应当区分对待) Motivation:
-
1.认为并不是所有历史视频帧,都对当前帧的动作类别预测有帮助。并且一般的cross-attention机制,无法学习到历史帧对当前帧预测的信息贡献程度(提供信息的帧也可能具有较小的权重,如下图中左侧绿色框图)
- 2.现有方法存在对 背景帧 假阳性预测的问题
2.Related Work
1)在线动作检测
- RNN based 方法:
- 方法:TRN
- 问题:不能并行计算;无法处理长期信息
- Transformer based 方法:
- 方法:OadTR、Colar、LSTR
3.Methodology
-
1)Overview
- 思想:历史帧的信息贡献程度不是等同的
- 整体框架:3个创新 GHU + FaH + Background Suppression
-
任务说明:
- input:视频序列特征 h = [ h t ] t = − T + 1 0 h=[h_t]{^0_{t=-T+1}} h=[ht]t=−T+10 (T帧, h t h_t ht代表t时刻的图像帧)
- output:当前帧动作预测 y 0 ∈ { 0 , 1 , … , C } y_0\in\lbrace0,1,\ldots,C\rbrace y0∈{0,1,…,C} (0代表背景类)
-
2)Gated History Unit based History Encoder
- 思想:结合 LSTM对信息选择的门控机制和 Transformer的长期建模能力
- 问题:现有方法采用cross-attention来降低计算复杂度,但一般的cross-attention不能学习到历史帧对OAD任务的信息贡献程度
-
方法:采用Gated History Unit(GHU)
- ①提取特征: z h = u ( h ) E + E p o s z^h=u(h)E+E_{pos} zh=u(h)E+Epos ( u u u代表特征提取器, E E E代表线性编码层, E p o s E_{pos} Epos代表position encoding)
- ②gated cross-attention:(如上图(a),区别主要在softmax前面增加了Gate操作)
- 使用 z h z^h zh生成 K K K, V V V
- q(可学习的query encoding)生成 Q Q Q
- 根据 z h z^h zh计算position guided gating scores G G G(学习出来的分数,用于校准注意力权重)
- 计算门控跨注意力操作
G H U i = S o f t m a x ( Q i K i T d k + G ) V i GHU_i=Softmax \left( {Q_i K{^T_i} \over \sqrt{d_k}}+G \right)V_i GHUi=Softmax(dkQiKiT+G)Vi - GHU的输出最后经过N个self-attention层获得最终的历史编码特征
3)Future-augmented History
- 思想:虽然对于当前时刻,未来帧是不可见的,但是对于之前的历史帧其实存在相对其的未来帧。因此利用这些可见的未来帧进行特征增强。
-
方法:
- 提取特征时,采用当前帧和相对应的
t
f
t_f
tf历史帧作为集合,用于特征提取
u ( h t ) = { u ( [ h i ] i = t − t p s t ) if t > − t f u ( [ h i ] i = t t + t f ) if t ≤ − t f u(h_t)= \begin{cases} u([h_i]{^t_{i=t-t_{ps}}}) & \text {if $t>-t_f$} \\ u([h_i]{^{t+t_f}_{i=t}}) & \text{if $t\leq-t_f$} \end{cases} u(ht)={u([hi]i=t−tpst)u([hi]i=tt+tf)if t>−tfif t≤−tf
4)Present Decoder
- 提取特征时,采用当前帧和相对应的
t
f
t_f
tf历史帧作为集合,用于特征提取
- 思想:采用当前最近的几帧,生成当前特征(present features),与上一步得到的历史特征进行cross-attention计算,得到最终的分类特征
-
方法:如上图(b)
- 2阶段:先对当前特征进行self-attention,再与历史特征进行cross-attention
- 作者此处参考了工作Perceiver,文献链接link
5)Background Suppression Objective
- 思想:背景类和动作类,不应当看成对等的类别,应该加以区分(此部分思想来自focal loss,可参考 focal loss)
- 问题:现有方法使用标准的交叉熵损失,并没有考虑到背景类并不算一种含有特定语义的动作类别,这是造成背景类别识别假阳性的原因之一
-
方法:设计了一个背景抑制目标函数,对背景类和动作类分开处理(
γ
a
,
γ
b
\gamma_a,\gamma_b
γa,γb两个超参数用来调整对背景类的限制程度)
4.Experiments
-
实验设置
- 数据集:THUMOS’14 , TVSeries and HDD
-
对比实验:
- 小结:
- 本文可以看做LSTR的改进工作,文中提出的3个创新点,最终给模型带来了3个百分点左右的提升
- 小结:
-
消融实验:
- 小结:
- GHU单元相比于一般的cross attention提了1点左右
- 背景抑制目标函数( γ a > γ b \gamma_a>\gamma_b γa>γb情况下,背景分类错误的惩罚更大)提点有一定效果,但不明显
- FaH需要精心设计,1~2s才能提升性能,太短太长都不行
- 小结:
![在这里插入图片描述](https://img-blog.csdnimg.cn/7fc5ac1512714ab6b90dacaee57b2f0d.png#pic_center)
5.Conclusion
- OAD任务新方法
- 3个创新点:GHU + FaH + Backgroun Suppresion
代码学习
代码暂未公布
TODO