CVPR2022 | 长期行动预期的Future Transformer

前言  在本文中,作者提出了一种端到端的动作预测注意模型,称为Future Transformer(FUTR),该模型利用所有输入帧和输出标记上的全局注意来预测未来动作的分钟长序列。与以往的自回归模型不同,该方法在并行解码中学习预测未来动作的整个序列,从而为长期预测提供更准确和快速的推理。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

论文:Future Transformer for Long-term Action Anticipation

论文:http://arxiv.org/pdf/2205.14022

代码:未发布

背景

视频中的长期动作预测最近成为高级智能系统的一项基本任务。它旨在通过对视频中过去行为的有限观察来预测未来的一系列行为。虽然有越来越多的关于动作预测的研究,但最近的大部分工作都集中在预测几秒钟内的一个动作。相比之下,长期行动预期旨在预测未来几分钟内的多重行动序列。这项任务具有挑战性,因为它需要了解过去和未来行动之间的长期依赖关系。

最近的长期预测方法将观察到的视频帧编码为压缩向量,并通过递归神经网络(RNN)对其进行解码,以自回归方式预测未来动作序列。尽管在标准基准上的表现令人印象深刻,但它们存在以下局限性:

1.编码器过度压缩输入帧特征,从而无法保留观察帧之间的细粒度时间关系。

2.RNN解码器在建模输入序列的长期依赖性以及考虑过去和未来动作之间的全局关系方面受到限制。

3.自回归解码的序列预测可能会累积来自先前结果的错误,并且还会增加推理时间。

为了解决这些局限性,作者引入了一种端到端的注意力神经网络(FUTR),用于长期的动作预测。该方法有效地捕捉了整个动作序列的长期关系。不仅观察到了过去的行动,而且还发现了未来的潜在行动。如图1所示的编码器-解码器结构(FUTR);编码器学习捕捉过去观测帧之间的细粒度长距离时间关系,而解码器学习捕捉未来即将发生的动作之间的全局关系以及编码器的观测特征。

图1 FUTR

贡献

1.介绍了一种端到端的注意力神经网络,称为FUTR,它有效地利用细粒度特征和全局交互来进行长期的动作预测。

2.提出在并行解码中预测一系列动作,从而实现准确快速的推断。

3.开发了一个集成模型,该模型通过在编码器中分割动作和在解码器中预测动作来学习不同的特征表示。

4.提出的方法为长期行动预期、早餐和50份沙拉的标准基准设定了新的技术水平。

相关工作

1、行动预期

动作预测旨在通过对视频的有限观察来预测未来的动作。随着大规模数据集的出现,人们提出了许多方法来解决下一个行动预测,在几秒钟内预测未来的单个行动。最近有人提出长期行动预测,从远程视频中预测遥远未来的一系列行动。

Farha等人首先介绍了长期行动预期任务,并提出了两种模型,RNN和CNN来处理该任务。Farha和Gall引入了GRU网络,以自回归的方式对未来活动的不确定性进行建模。他们在测试时预测未来行动的多个可能序列。Ke等人介绍了一种模型,该模型可以预测特定未来时间戳中的动作,而无需预测中间动作。他们表明,中间作用的迭代预测会导致误差累积。以前的方法通常将观察到的帧的动作标签作为输入,使用动作分割模型提取动作标签。相比之下,最近的研究使用视觉特征作为输入。Farha等人提出了一个长期动作预测的端到端模型,将动作分割模型用于训练中的视觉特征。他们还引入了一个GRU模型,该模型在过去和未来的行动之间具有周期一致性。Sener等人提出了一种多尺度时间聚合模型,该模型将过去的视觉特征聚合到压缩向量中,然后使用LSTM网络迭代预测未来的行为。最近的工作通常利用RNN对过去的帧进行压缩表示。相比之下,作者提出了一个端到端注意模型,该模型使用过去帧的细粒度视觉特征来预测所有未来的并行动作。

2. 自我注意机制

自我注意(Self attention)最初被引入神经机器翻译,以缓解RNN中学习长期依赖关系的问题,并已被广泛应用于各种计算机视觉任务中。自我注意可以有效地学习图像域中图像像素或斑块之间的全局交互作用。有几种方法利用视频领域中的注意机制来模拟短期视频和长期视频中的时间动态。与动作预测相关,Girdhar和Grauman最近推出了预测视频转换器(VT),它使用自我关注解码器预测下一个动作。与VT不同,VT需要对长期预测进行自回归预测,作者的编码器-解码器模型有效地预测了未来几分钟的并行动作序列。

3. 并行解码

transformer设计用于按顺序预测输出,即自回归解码。由于推理成本随着输出序列的长度而增加,自然语言处理中的最新方法将自回归解码替换为并行解码。具有并行解码的transformer模型也被用于计算机视觉任务,如目标检测、相机校准和密集视频字幕。我们将其用于长期行动预测,同时预测未来的一系列行动。在长期的动作预测中,并行解码不仅可以实现更快的推理,还可以捕获未来动作之间的双向关系。

问题说明

长期行动预测的问题是从视频的给定可观察部分预测未来视频帧的动作序列。图2说明了问题设置。对于具有T帧的视频,观察到第一个αT帧,并预期下一个βT帧的动作序列;α 是视频的观察率,而β是预测比率。

图2 长期行动预测的问题

方法

Future Transformer (FUTR)

在本文中,作者提出了一个完全基于注意力的网络,称为FUTR,用于长期的行动预期。总体架构包括变压器编码器和解码器,如图3所示。

图3 FUTR的总体架构

1. 编码器

编码器将视觉特征作为输入,分割过去帧的动作,通过自我注意学习不同的特征表示。

作者使用从输入帧中提取的视觉特征,对时间跨度为τ的帧进行采样,采样的帧特征被馈送到线性层,然后将激活函数ReLU到E,创建输入标记:

每个编码器层由一个多头自关注(MHSA)、层规范化(LN)和带有剩余连接的前馈网络(FFN)组成。定义了一种多头注意(MHA),该注意基于缩放的点积注意:

最后一个编码器层的最终输出用于生成动作分段, 通过应用全连接(FC)层,后接softmax:

2. 解码器

解码器将可学习的标记作为输入,称为动作查询,并平行预测未来动作标签和相应的持续时间,通过自我注意和交叉注意学习过去和未来动作之间的长期关系。

查询操作嵌入M个可学习标记。查询的时间顺序固定为与未来操作的时间顺序相等,即第i个查询对应于第i个未来操作。

每个解码器层由一个MHSA、一个多头交叉注意(MHCA)、LN和FFN组成。输出查询Ql+1从解码器层获得:

最后的解码器层的最终输出用于生成未来动作,通过应用FC层,后跟softmax和持续时间向量:

3. 目标动作分段损失

作者应用动作分段损失来学习编码器中过去动作的特征表示,作为辅助损失。动作分段损失Lseg定义:

行动预期损失定义:

持续时间回归损失定义:

最终损失:

实验

表1 与最新技术的比较

表2 并行解码与自回归解码

表3 全局自我关注与局部自我关注

表5 损失消融

图4 早餐上的交叉注意力地图可视化

图5 早餐的定性结果

结论

作者引入了端到端注意神经网络FUTR,它利用过去和未来行动的全局关系进行长期行动预测。该方法利用细粒度视觉特征作为输入,并预测并行解码中的未来动作,从而实现准确快速的推理。通过在两个基准上的大量实验,证明了作者的方法的优势,达到了最新的水平。

 CV技术指南创建了一个计算机视觉技术交流群和免费版的知识星球,目前星球内人数已经700+,主题数量达到200+。

知识星球内将会每天发布一些作业,用于引导大家去学一些东西,大家可根据作业来持续打卡学习。

CV技术群内每天都会发最近几天出来的顶会论文,大家可以选择感兴趣的论文去阅读,持续follow最新技术,若是看完后写个解读给我们投稿,还可以收到稿费。 另外,技术群内和本人朋友圈内也将发布各个期刊、会议的征稿通知,若有需要的请扫描加好友,并及时关注。

加群加星球方式:关注公众号CV技术指南,获取编辑微信,邀请加入。

 公众号其它文章

计算机视觉入门路线

计算机视觉中的论文常见单词总结

YOLO系列梳理(四)关于YOLO的部署

YOLO系列梳理(三)YOLOv5

YOLO系列梳理(二)YOLOv4

YOLO系列梳理(一)YOLOv1-YOLOv3

CVPR2022 | 可精简域适应

CVPR2022 | 基于自我中心数据的OCR评估

CVPR 2022 | 使用对比正则化方法应对噪声标签

CVPR2022 | 弱监督多标签分类中的损失问题

CVPR2022 | iFS-RCNN:一种增量小样本实例分割器

CVPR2022 | A ConvNet for the 2020s & 如何设计神经网络总结

CVPR2022 | PanopticDepth:深度感知全景分割的统一框架

CVPR2022 | 重新审视池化:你的感受野不是最理想的

CVPR2022 | 未知目标检测模块STUD:学习视频中的未知目标

CVPR2022 | 基于排名的siamese视觉跟踪

从零搭建Pytorch模型教程(六)编写训练过程和推理过程

从零搭建Pytorch模型教程(五)编写训练过程--一些基本的配置

从零搭建Pytorch模型教程(四)编写训练过程--参数解析

从零搭建Pytorch模型教程(三)搭建Transformer网络

从零搭建Pytorch模型教程(二)搭建网络

从零搭建Pytorch模型教程(一)数据读取

关于快速学习一项新技术或新领域的一些个人思维习惯与思想总结

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: CVPR2022计算机视觉领域的顶级国际会议,而Transformer是一种基于自注意力机制的神经网络模型,已经在自然语言处理领域取得了很大的成功。在计算机视觉领域,Transformer也被广泛应用于图像生成、目标检测、图像分割等任务中。因此,CVPR2022中关于Transformer的研究和应用将会是一个热门话题。 ### 回答2: CVPR2022计算机视觉领域内的一场重要学术会议,其中涉及到了许多最新的技术和研究成果。其中,Transformer是一个备受关注的话题。 Transformer是一种基于注意力机制的神经网络结构,最初是被提出作为解决自然语言处理任务的一种方法。但是,后来人们发现Transformer同样适用于计算机视觉领域中的各种任务,如目标检测、图像分割、图像生成等。 在CVPR2022中,许多研究人员展示了他们基于Transformer的新方法和改进。其中,一些新方法表现出了很好的性能,证明了Transformer计算机视觉领域中的应用前景。 另外,还有一些关于Transformer的应用研究值得关注。例如,一些研究人员提出了一种基于Transformer的迁移学习方法,可以将已经训练好的模型应用于新的数据集,从而提高模型的泛化能力。此外,还有一些研究人员探究了Transformer结构在图像内部表示方面的作用,以及如何优化Transformer以提高其计算效率等问题。 总之,Transformer计算机视觉领域中的应用前景十分广阔,CVPR2022中越来越多的研究人员开始关注并致力于Transformer的发展和应用,相信在不久的将来,Transformer将会在计算机视觉领域中扮演更加重要的角色。 ### 回答3: CVPR是计算机视觉领域的顶级国际学术会议。每年,来自世界各地的研究人员都会在该会议上展示他们的最新研究成果,并分享他们的见解和经验。CVPR2022 TransformerCVPR2022的一个重要话题,它展示了近年来该领域中的最新技术。 Transformer是一种用于自然语言处理(NLP)和计算机视觉(CV)的深度学习模型。该模型在2017年由谷歌公司提出,并在机器翻译任务中获得了巨大的成功。近年来,Transformer已被广泛应用于计算机视觉领域,并在图像分类、目标检测、图像分割、人体姿势估计等任务上取得了优异的结果。 CVPR2022 Transformer展示了一系列最新的技术和应用。首先,该会议涵盖了Transformer模型的各种变体,包括BERT、RoBERTa、GPT和DeiT等。这些变体旨在通过使用更好的语言和图像表示方法来提高模型的性能。其次,该会议还探讨了Transformer在各种计算机视觉任务中的应用,如自然场景文本识别、物体检测和图像生成等。 与传统的卷积神经网络(CNNs)相比,Transformer模型具有许多优势。首先,Transformers可以捕获长期依赖性,因此它们在处理序列数据时更加有效。其次,Transformers具有自注意力机制,这意味着它们能够高效地对重要信息进行集中处理。最后,Transformers可以通过使用预训练模型来提高其性能,这使得它们更适合于小样本或零样本学习。 总之,CVPR2022 Transformer计算机视觉领域中的一个重要话题,它展示了这一深度学习模型在图像处理中的最新技术和应用。Transformer模型的优越性能使得它成为计算机视觉领域中的一项关键技术,将随着时间的推移变得更加成熟和广泛应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值