Fine-Grained Spatio-Temporal Parsing Network for Action Quality Assessment
摘要:动作质量评估(AQA)是视频理解领域的重要研究方向,用于评价具体运动的质量,拥有众多的应用场景,由于动作差异较小,因此这是一个极具挑战性的研究领域。考虑到目前大多数方法关注于整体视频内容,无法捕捉细粒度的类内变化(注:细粒度指的是在一个更大的类别或类别中的小规模、微小的差异或细微的特征)。作者提出一个由序列内动作解析模块和时空多尺度转换模块组成的细粒度时空解析网络(FSPN),描述动作序列之间的细微差别,学习不同尺度子动作之间的远程依赖关系。
介绍
相比于传统的人体动作识别(动作识别侧重于粗粒度动作特征),AQA更关注细微的动作差异,因此仅使用动作识别算法是远远不够的,AQA需要了解细粒度子动作序列及其时间依赖关系,以便于估计最终分数。文中作者探讨了视频动作上下文信息、面向运动的特征表示和序列内子动作解析对AQA任务的影响。动作的时间依赖性是进行动作质量评估的关键,为捕捉子动作高级语义和内部时间依赖关系,作者提出一个时空多尺度转换器模块,学习面向运动的特征表示,并在多个尺度获得子动作之间的时间依赖关系,为在细粒度级别挖掘子动作执行语义子动作解析,从而获得细微的动作差异,作者提出了序列解析模块。序列解析模块和时空多尺度转换器模块共同构成文章中的细粒度时空解析网络(FSPN)。
方法
问题表述:给定一个输入视频,动作质量评估可以表述为基于视频的预测分数回归运算问题。在训练过程中,回归问题通常是通过最小化预测评估得分与真实评估得分之间的 MSE 来解决的。文章所提出的F