视频动作质量评估:论文分享:Action Quality Assessment with TemporalParsing Transformer

Action Quality Assessment with Temporal Parsing Transformer

摘要:作者发现现有方法通常依赖整体视频表示进行分数回归或排名,这限制了捕获细粒度类内变化的泛化。因此,作者提出一个时间解析转换器,将整体特征分解为时间部分级表示。利用一组可学习的查询表示特定操作的原子时态模式。解码过程将帧表示转换为固定数量的暂时有序部分表示。为获得质量分数,采用了基于部分表示的最先进的对比回归。此外,为解决现有动作质量评估数据集不提供时间部分级标签或分区的问题,提出两种最新的关于解码器交叉注意响应的损失函数:排序损失和稀疏损失。

介绍

介绍:先前有关动作质量评估的方法主要是基于排名的两两比较或者基于回归方法估计质量分数。这些方法都是通过骨干网络输出全局池化操作来表示视频的整体表示。作者在文中提出将整体特征分解为细粒度的动作质量评估时态部分级表示以捕获细粒度的类内变化便于估计更准确的质量分数。考虑到现有的动作质量评估数据集不提供临时部分级标签或分区。因此,作者开发基于回归的操作质量评估策略便于在没有任何显式部分级监督的情况下利用细粒度原子操作模式。

方法

方法:具有对比回归框架的时态解析转换器

图片来源于论文Action Quality Assessment with Temporal Parsing Transformer

图片简介:时态解析转换器将片段表示转换为时态部件级表示。然后,部分感知对比回归器计算部分感知相对表示,然后融合进行相对分数估计。采用群体意识回归策略,在训练过程中,采用解码器交叉注意图上的排序损失和稀疏损失来指导部件表示学习。

输入:动作视频

采用膨胀3D卷积神经网络(I3D)作为主干,首先应用滑动窗口将视频分割成T个重叠的片段,每个片段包含M个连续帧。每个片段经过I3D网络,得到时间序列片段级别表示$V=\lbrace{v_t \in R^D}\rbrace_{t=1}^T$,D代表特征维度,T代表全部片段数量。动作质量评估的目标在于估计测试视频和具有已知质量分数视频之间的相对分数,对比回归的目的就在于设计一个能实现这种功能的框架。

在作者的框架中,首先采用时间解析转换器将\varsigma将片段级表示转换为时间部件级表示,即时间原子模式,对于测试视频和参考范例视频,就可以得到两组对齐的部分表示。

文中所提出的时态解析转换器将片段表示作为内存,并利用一组可学习的查询来解码部分表示。与流行的DETR架构(一种基于Transformer架构的目标检测模型)不同,文章的Transformer仅包括一个解码器模块。实验中,作者发现框架中,编码器模块并没有带来性能的提升;它甚至对性能造成了负面影响。猜测这可能是因为剪辑级别的自注意机制使得时间表示更加平滑,而作者的学习策略无法在没有部分标签的情况下解码部分表示。因此,作者在DETR解码器基础上进行修改,在解码器中交叉注意块有一个可学习的参数来控制内积的放大。在第i层解码器中,解码器部分特征和可学习的原子模式(queryset)首先求和,然后对嵌入的片段表示进行交叉关注。在解码器中,作者未使用位置,希望query代表原子模式,而不是空间锚点,因为发现添加位置编码会显著降低性能(可能是目标尺寸变化较大的原因,而且在DETR的设计中,它使用全局注意力机制来考虑所有位置,而不依赖于位置编码。所以位置编码是无意义的)。

部分感知对比回归:前期工作将片段表示转换为部分表示,输入一个测试视频和参考视频得到两个部分表示集,传统估计相对质量分数是融合每个视频的部分表示并估计相对分数。然而,由于作者的时序解析转换器允许提取的部分表示与查询集在语义上对齐,因此可以计算每个部分的相对成对表示,然后将它们融合在一起。形式上,使用多层感知器生成第K个部分的相对成对表示。

这一部分对应文章框架更容易理解,作者将代码和数据集均上传到github网站,可以对照学习。

  • 43
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值