Future Transformer for Long-term Action Anticipation论文阅读

pamphiluss

已于 2022-08-02 16:03:11 修改

阅读量267

点赞数

文章标签：计算机视觉

于 2022-08-02 16:02:00 首次发布

本文链接：https://blog.csdn.net/pamphiluss/article/details/126124285

版权

Future Transformer for Long-term Action Anticipation论文阅读

背景

长时行为识别

基于有限的过去观察,预测未来长时的序列.与当前短期行为预测不同,短期行为预测旨在间隔1秒(或者其他秒级范围内,1s作为大多数论文评测标准),预测1s后动作.短期行为预测更关注于特征级,长期行为预测之间没有间隔,同时时间跨度要比短期长的多,之前一些工作侧重于标签级输入,近些年一些论文也转为特征级输入.

论文动机

之前方法的编码器过度压缩了输入帧的特征导致一些细粒度特征的时序关系不再被保留
以RNN作为decoder的模型,首先受限于长时建模问题,较难获取输入序列的长时依赖关系以及全局角度的过去和未来动作关系.
以自回归形式做预测会出现错误累积问题,随着时间增长在某一处预测出错后续均会出错.

本文方法简介

错误累积问题->transformer,decoder直接输出预测序列
细粒度特征丢失问题->损失函数设计,学习具有区分度的特征表示,encoder通过动作分割学习动作独特性,decoder并行预测未来动作
长时建模问题->选用transformer架构,架构本身更能捕获全局关系

方法介绍

模型架构

问题设定

输入: 待输入视频分为T帧,其中 $\alpha T$ 作为可以观测部分,其中 $\alpha \in [0,1]$ ,相应的 $\beta \in [0,1-\alpha]$ , $\beta T$ 作为待预测序列.输入序列 $I^{past} = [I_1,...,I_{\alpha T}]^T \in \mathbb{R}^{\alpha T* H * W * 3}$

输出:未来序列标签 $S^{\text {future }}=\left[s_{\alpha T+1}, \ldots, s_{\alpha T+\beta T}\right]^{\top} \in \mathbb{R}^{\beta T \times K}$ ,其中未来标签的形式为标签和持续时间,分别为 $\boldsymbol{A}=\left[\boldsymbol{a}_{1}, \ldots, \boldsymbol{a}_{N}\right]^{\top} \in \mathbb{R}^{N \times K}$ 和 $\boldsymbol{d}=\left[d_{1}, \ldots, d_{N}\right] \in \mathbb{R}^{N}$ 其中 $d$ 为比例 $\sum_{j=0}^{N} d_{j}=1$ ,最终输出形式上如下:
$s_{\alpha T+t}=a_{i}, \quad \beta T \sum_{j=0}^{i-1} d_{j}<t \leq \beta T \sum_{j=0}^{i} d_{j}$
输入输出示意图