视频动作质量评估:论文分享:Fine-Grained Spatio-Temporal Parsing Network for Action Quality Assessment

Fine-Grained Spatio-Temporal Parsing Network for Action Quality Assessment

摘要:动作质量评估(AQA)是视频理解领域的重要研究方向,用于评价具体运动的质量,拥有众多的应用场景,由于动作差异较小,因此这是一个极具挑战性的研究领域。考虑到目前大多数方法关注于整体视频内容,无法捕捉细粒度的类内变化(注:细粒度指的是在一个更大的类别或类别中的小规模、微小的差异或细微的特征)。作者提出一个由序列内动作解析模块和时空多尺度转换模块组成的细粒度时空解析网络(FSPN),描述动作序列之间的细微差别,学习不同尺度子动作之间的远程依赖关系。

介绍

相比于传统的人体动作识别(动作识别侧重于粗粒度动作特征),AQA更关注细微的动作差异,因此仅使用动作识别算法是远远不够的,AQA需要了解细粒度子动作序列及其时间依赖关系,以便于估计最终分数。文中作者探讨了视频动作上下文信息、面向运动的特征表示和序列内子动作解析对AQA任务的影响。动作的时间依赖性是进行动作质量评估的关键,为捕捉子动作高级语义和内部时间依赖关系,作者提出一个时空多尺度转换器模块,学习面向运动的特征表示,并在多个尺度获得子动作之间的时间依赖关系,为在细粒度级别挖掘子动作执行语义子动作解析,从而获得细微的动作差异,作者提出了序列解析模块。序列解析模块和时空多尺度转换器模块共同构成文章中的细粒度时空解析网络(FSPN)。

方法

问题表述:给定一个输入视频,动作质量评估可以表述为基于视频的预测分数回归运算问题。在训练过程中,回归问题通常是通过最小化预测评估得分与真实评估得分之间的 MSE 来解决的。文章所提出的FSPN网络能够利用细粒度子动作模式,在不同尺度上提供足够的时空信息。首先,使用预训练的对象检测器,通过识别主要参与者来减轻来自视频背景的干扰,学习每个视频的以动作为中心和以动作为导向的动作特征。即,给定一个输入剪辑,得到一个以参与者为中心的区域,然后将剪辑和区域同时输入共享I3D主干网络,提取时空特征,

序列内动作解析:动作解析的主要目的是识别子序列开始和结束帧。作者设计以参与者为中心的序列内动作解析,并从具有语义和时间对应的序列中分割子动作,以无监督的方式执行,该方法能够帮助获取更深刻的理解,发现动作的语义空间和时间信息。所提出的动作解析方法可以预测S个子动作的概率分布,识别发生在某帧的过渡步骤。动作解析方法由上采样块和MLP投影层组成,上采样块中使用卷积层扩展时间轴上的I3D特征长度,通过最大池化降低空间维度。MLP投影层共三层,将采样特征投影到概率向量上。作者通过一系列操作,将动作解析问题转化为密集分类问题,预测某一帧属于某一动作实例。考虑到现有数据集没有细粒度子动作标签,作者利用一组动作序列之间的差异,采用对比学习更好地表征动作特征。设计一组对比损失来学习子动作之间最具判别性的表示,以无监督的方式训练所提出的模块。

群体对比学习:根据前文可知,以参与者为中心的区域和整个场景的动作特征共享相同的语义动作信息,并且两个输入表示之间的相似性必须最大化。然而,直接在二者之间应用对比学习会将相似的子动作实例推到一起,并为具有相同语义的动作序列学习不同的表示。因此,作者设计一种分组对比学习方法,通过分组相似的子动作序列探索视频邻域内的关系。此外,采用群体对比学习方法可以避免同一语义子动作序列的不同表示问题。然后,为两个输入的子动作解析概率分布向量分配伪标签,这些伪标签对应于具有最大激活和高级语义相似性的类。

  • 8
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值