Online Action Detecition论文:GateHUB(CVPR2022)

GateHUB: Gated History Unit with Background Suppression for Online Action Detection

作者:Junwei Chen、Gaurav Mittal
机构:Microsoft
论文下载link
代码:暂未公布
在线动作检测任务:目标在视频流中识别出当前帧的动作类别

论文阅读

1.Abstract

Task:
Online Action Detection(OAD)
Dataset:
THUMOS
TVSeries
HDD
Contribution:
1.提出了在线动作检测的新方法 GateHUB(使用Transformer建模长期信息,RNN选择相关的信息进行编码)
2.提出了一个position-guided gated cross-attention机制(根据对当前帧预测的贡献程度,来增强或抑制历史特征)
3.同时使用Future-augmented History (FaH)(使用可获取的未来帧,增强历史特征)
4.提出了一个背景抑制目标函数(思想在于 背景类别动作类别应当区分对待)
Motivation:
1.认为并不是所有历史视频帧,都对当前帧的动作类别预测有帮助。并且一般的cross-attention机制,无法学习到历史帧对当前帧预测的信息贡献程度(提供信息的帧也可能具有较小的权重,如下图中左侧绿色框图)
不同cross attention对比
2.现有方法存在对 背景帧 假阳性预测的问题

2.Related Work

1)在线动作检测

  • RNN based 方法:
    • 方法:TRN
    • 问题:不能并行计算;无法处理长期信息
  • Transformer based 方法:
    • 方法:OadTR、Colar、LSTR

3.Methodology

1)Overview
思想:历史帧的信息贡献程度不是等同的
整体框架:3个创新 GHU + FaH + Background Suppression
任务说明:
  • input:视频序列特征 h = [ h t ] t = − T + 1 0 h=[h_t]{^0_{t=-T+1}} h=[ht]t=T+10 (T帧, h t h_t ht代表t时刻的图像帧)
  • output:当前帧动作预测 y 0 ∈ { 0 , 1 , … , C } y_0\in\lbrace0,1,\ldots,C\rbrace y0{0,1,,C} (0代表背景类)

GateHUB模型架构图

2)Gated History Unit based History Encoder
思想:结合 LSTM对信息选择的门控机制和 Transformer的长期建模能力
问题:现有方法采用cross-attention来降低计算复杂度,但一般的cross-attention不能学习到历史帧对OAD任务的信息贡献程度
方法:采用Gated History Unit(GHU)
  • ①提取特征: z h = u ( h ) E + E p o s z^h=u(h)E+E_{pos} zh=u(h)E+Epos u u u代表特征提取器, E E E代表线性编码层, E p o s E_{pos} Epos代表position encoding)
  • ②gated cross-attention:(如上图(a),区别主要在softmax前面增加了Gate操作)
    • 使用 z h z^h zh生成 K K K, V V V
    • q(可学习的query encoding)生成 Q Q Q
    • 根据 z h z^h zh计算position guided gating scores G G G(学习出来的分数,用于校准注意力权重)
    • 计算门控跨注意力操作
      G H U i = S o f t m a x ( Q i K i T d k + G ) V i GHU_i=Softmax \left( {Q_i K{^T_i} \over \sqrt{d_k}}+G \right)V_i GHUi=Softmax(dk QiKiT+G)Vi
    • GHU的输出最后经过N个self-attention层获得最终的历史编码特征
3)Future-augmented History
思想:虽然对于当前时刻,未来帧是不可见的,但是对于之前的历史帧其实存在相对其的未来帧。因此利用这些可见的未来帧进行特征增强。
方法:
  • 提取特征时,采用当前帧和相对应的 t f t_f tf历史帧作为集合,用于特征提取
    u ( h t ) = { u ( [ h i ] i = t − t p s t ) if  t > − t f u ( [ h i ] i = t t + t f ) if  t ≤ − t f u(h_t)= \begin{cases} u([h_i]{^t_{i=t-t_{ps}}}) & \text {if $t>-t_f$} \\ u([h_i]{^{t+t_f}_{i=t}}) & \text{if $t\leq-t_f$} \end{cases} u(ht)={u([hi]i=ttpst)u([hi]i=tt+tf)if t>tfif ttf
4)Present Decoder
思想:采用当前最近的几帧,生成当前特征(present features),与上一步得到的历史特征进行cross-attention计算,得到最终的分类特征
方法:如上图(b)
  • 2阶段:先对当前特征进行self-attention,再与历史特征进行cross-attention
  • 作者此处参考了工作Perceiver,文献链接link
5)Background Suppression Objective
思想:背景类和动作类,不应当看成对等的类别,应该加以区分(此部分思想来自focal loss,可参考 focal loss
问题:现有方法使用标准的交叉熵损失,并没有考虑到背景类并不算一种含有特定语义的动作类别,这是造成背景类别识别假阳性的原因之一
方法:设计了一个背景抑制目标函数,对背景类和动作类分开处理( γ a , γ b \gamma_a,\gamma_b γa,γb两个超参数用来调整对背景类的限制程度)
在这里插入图片描述

4.Experiments

实验设置
数据集:THUMOS’14 , TVSeries and HDD
对比实验:
  • 小结:
    • 本文可以看做LSTR的改进工作,文中提出的3个创新点,最终给模型带来了3个百分点左右的提升

在这里插入图片描述

在这里插入图片描述
消融实验:
  • 小结:
    • GHU单元相比于一般的cross attention提了1点左右
    • 背景抑制目标函数( γ a > γ b \gamma_a>\gamma_b γa>γb情况下,背景分类错误的惩罚更大)提点有一定效果,但不明显
    • FaH需要精心设计,1~2s才能提升性能,太短太长都不行

在这里插入图片描述
在这里插入图片描述

5.Conclusion

  1. OAD任务新方法
  2. 3个创新点:GHU + FaH + Backgroun Suppresion

代码学习

代码暂未公布
TODO

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AItairyang

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值