Future Transformer for Long-term Action Anticipation论文阅读

Future Transformer for Long-term Action Anticipation论文阅读

相关内容

论文名称: Future Transformer for Long-term Action Anticipation(CVPR’22)

论文作者: Dayoung Gong, Joonseok Lee, Manjin Kim, Seong Jong Ha, Minsu Cho

论文地址:https://arxiv.org/abs/2205.14022

代码地址:暂未公布

背景

长时行为识别

基于有限的过去观察,预测未来长时的序列.与当前短期行为预测不同,短期行为预测旨在间隔1秒(或者其他秒级范围内,1s作为大多数论文评测标准),预测1s后动作.短期行为预测更关注于特征级,长期行为预测之间没有间隔,同时时间跨度要比短期长的多,之前一些工作侧重于标签级输入,近些年一些论文也转为特征级输入.

论文动机
  1. 之前方法的编码器过度压缩了输入帧的特征导致一些细粒度特征的时序关系不再被保留
  2. 以RNN作为decoder的模型,首先受限于长时建模问题,较难获取输入序列的长时依赖关系以及全局角度的过去和未来动作关系.
  3. 以自回归形式做预测会出现错误累积问题,随着时间增长在某一处预测出错后续均会出错.
本文方法简介
  1. 错误累积问题->transformer,decoder直接输出预测序列
  2. 细粒度特征丢失问题->损失函数设计,学习具有区分度的特征表示,encoder通过动作分割学习动作独特性,decoder并行预测未来动作
  3. 长时建模问题->选用transformer架构,架构本身更能捕获全局关系

方法介绍

模型架构

问题设定

输入: 待输入视频分为T帧,其中 α T \alpha T αT作为可以观测部分,其中 α ∈ [ 0 , 1 ] \alpha \in [0,1] α[0,1],相应的 β ∈ [ 0 , 1 − α ] \beta \in [0,1-\alpha] β[0,1α], β T \beta T βT作为待预测序列.输入序列 I p a s t = [ I 1 , . . . , I α T ] T ∈ R α T ∗ H ∗ W ∗ 3 I^{past} = [I_1,...,I_{\alpha T}]^T \in \mathbb{R}^{\alpha T* H * W * 3} Ipast=[I1,...,IαT]TRαTHW3

输出:未来序列标签 S future  = [ s α T + 1 , … , s α T + β T ] ⊤ ∈ R β T × K S^{\text {future }}=\left[s_{\alpha T+1}, \ldots, s_{\alpha T+\beta T}\right]^{\top} \in \mathbb{R}^{\beta T \times K} Sfuture =[sαT+1,,sαT+βT]RβT×K,其中未来标签的形式为标签和持续时间,分别为 A = [ a 1 , … , a N ] ⊤ ∈ R N × K \boldsymbol{A}=\left[\boldsymbol{a}_{1}, \ldots, \boldsymbol{a}_{N}\right]^{\top} \in \mathbb{R}^{N \times K} A=[a1,,aN]RN×K d = [ d 1 , … , d N ] ∈ R N \boldsymbol{d}=\left[d_{1}, \ldots, d_{N}\right] \in \mathbb{R}^{N} d=[d1,,dN]RN其中 d d d为比例 ∑ j = 0 N d j = 1 \sum_{j=0}^{N} d_{j}=1 j=0Ndj=1,最终输出形式上如下:
s α T + t = a i , β T ∑ j = 0 i − 1 d j < t ≤ β T ∑ j = 0 i d j s_{\alpha T+t}=a_{i}, \quad \beta T \sum_{j=0}^{i-1} d_{j}<t \leq \beta T \sum_{j=0}^{i} d_{j} sαT+t=ai,βTj=0i1dj<tβTj=0idj
输入输出示意图

整个网络部分详细设计图如下图:

网络设计图

Enocder部分

过去全部帧 F t e x t ∈ R α T ∗ C F^{text} \in \mathbb{R}^{\alpha T*C} F

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting是一篇2021年发表在AAAI会议上的论文,它提出了一种名为Informer的方法,用于解决长时间序列预测的问题。\[2\]这篇论文的目标是在长时间序列预测中提高预测能力并提高效率。传统的Transformer方法在长时间序列预测上存在一些局限性,而Informer通过引入一些新的机制来克服这些局限性。\[3\]具体来说,Informer采用了一种多层次的注意力机制,以便更好地捕捉长时间序列中的依赖关系,并引入了一种自适应长度的编码器和解码器,以提高对长序列的建模能力。通过这些改进,Informer在长时间序列预测任务上取得了更好的效果。 #### 引用[.reference_title] - *1* *3* [Informer: Beyond Efficient Transformer for Long SequenceTime-Series Forecasting](https://blog.csdn.net/lwera/article/details/127389652)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [Informer:超越Transformer的长时间序列预测模型](https://blog.csdn.net/zuiyishihefang/article/details/123437169)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值