Action Quality Assessment with Temporal Parsing Transformer
摘要:作者发现现有方法通常依赖整体视频表示进行分数回归或排名,这限制了捕获细粒度类内变化的泛化。因此,作者提出一个时间解析转换器,将整体特征分解为时间部分级表示。利用一组可学习的查询表示特定操作的原子时态模式。解码过程将帧表示转换为固定数量的暂时有序部分表示。为获得质量分数,采用了基于部分表示的最先进的对比回归。此外,为解决现有动作质量评估数据集不提供时间部分级标签或分区的问题,提出两种最新的关于解码器交叉注意响应的损失函数:排序损失和稀疏损失。
介绍
介绍:先前有关动作质量评估的方法主要是基于排名的两两比较或者基于回归方法估计质量分数。这些方法都是通过骨干网络输出全局池化操作来表示视频的整体表示。作者在文中提出将整体特征分解为细粒度的动作质量评估时态部分级表示以捕获细粒度的类内变化便于估计更准确的质量分数。考虑到现有的动作质量评估数据集不提供临时部分级标签或分区。因此,作者开发基于回归的操作质量评估策略便于在没有任何显式部分级监督的情况下利用细粒度原子操作模式。
方法
方法:具有对比回归框架的时态解析转换器

图片简介:时态解析转换器将片段表示转换为时态部件级表示。然后