视频动作质量评估：论文分享-CSDN博客

本文链接：https://blog.csdn.net/gaohaohaoxuexi1/article/details/135822222

Semi-Supervised Action Quality Assessment With Self-Supervised Segment Feature Recovery

摘要：现有方法在全监督动作质量评估方面取得不错的效果，但是实际应用中，手动标记全部样本难度较大。因此，作者提出研究少量样本标注情况下的半监督动作评估问题。为解决如何利用未标记视频的时间模式问题，作者受到动作执行时间依赖性的启发，通过恢复未标记视频的屏蔽片段的特征实现未标记视频的自监督学习方法。此外，作者利用对抗性学习来对齐标记和未标记样本的表示分布，以缩小在样本空间的差距。最后，提出一个对抗性自监督框架，用于半监督动作质量评估。

1.介绍

动作质量评估目的在于判断动作执行情况，在各种现实场景中具有良好的应用潜力，因此吸引了众多研究者的目光。现有的动作质量评估方法根据问题表述的不同可分为三类：基于分类的方法、基于两两比较的方法和基于回归的方法。但是当前基于全监督的动作质量评估算法严重依赖于人工注释，而真实场景中，面对数量巨大的动作样本，很难获得动作性能的评估注释。在这种情况下，作者提出开发一种能够在只有少量样本注释的情况下学习人体行为表现的模型。

面对如何利用未标记样本的问题，作者发现半监督动作质量评估有一些可以利用的特点：1.未标记视频的时间依赖性；一个阶段的动作表现会对其他阶段造成影响。2.使用与未标记视频相同的编码器获得标记视频的中间表示；

针对半监督动作质量评估存在的问题（主要是样本使用问题），作者提出Self-Supervised Semi-Supervised 动作质量评估模型。如下图所示，首先，作者利用动作执行时间依赖性的特点，通过自监督片段特征恢复学习进行动作评估（如图，具体操作是作者随机屏蔽一个片段并尝试使用一个编码器和一个解码器来恢复该片段的特征）。通过这种办法学习中间表示来描述视频中动作执行的质量。其次，作者提出一种对抗性训练机制，对齐标记视频和未标记视频的表示分布，缩小在样本空间的差距。

图片来源于论文Semi-Supervised Action Quality Assessment With Self-Supervised Segment Feature Recovery
图片简介：通过自监督片段特征恢复来利用未标记视频，即预测被屏蔽视频片段的特征。在编码器的帮助下，对标记好的视频进行分数标注的训练，用于动作评估。

模型共分为三部分：屏蔽特征恢复模块，用于学习未标记视频表示；动作评估模块，学习标记视频表示；表示分布对齐模块，对齐标记数据和未标记数据的特征分布。

2.方法

作者所提出的动作质量评估模型自监督半监督行动质量评估模型如下所示：一个屏蔽段特征恢复模块，用于学习未标记视频的表示；一个动作评估模块，用于学习标记视频的表示；一个表示分布对齐模块，用于对齐标记数据和未标记数据的特征分布。三个模块联合训练进行半监督行为评估。

图片来源于论文Semi-Supervised Action Quality Assessment With Self-Supervised Segment Feature Recovery

图片介绍：文中的S4AQA框架以多任务学习的方式将自监督屏蔽段特征恢复任务与监督分数回归任务耦合，使用GRL表示分布对齐模块以对抗训练的方式对标记视频和未标记视频的表示分布进行对齐

将训练样本分为两个子集：标记子集和未标记子集，大小分别是L和U。对于每个视频，将其分为T段，使用I3D主干获得视频基本特征。学习通过利用标记和未标记样本评估动作性能质量。获得视频基本特征后，学习在标记数据上预测性能分数。使用编码器（由三个具有ReLU激活函数的一维时间卷积层、批归一化层和droupout层组成）来获得视频的中间特征，然后预测标记样本的动作性能得分。

为了学习时间依赖性，在未标记视频上引入自监督掩码段特征恢复，学习视频动作掩码特征，即随机选取第K个基本段特征进行掩码，然后将被屏蔽的基本特征反馈到编码器获得中间特征。然后尝试使用特征解码器（由两个全连接层和一个ReLU激活函数组成）从中间特征中恢复掩码段特征，使用平均绝对误差损失执行自监督特征恢复学习。遮蔽段特征恢复任务利用大量未标记的动作视频中包含的内在时间依赖性作为监督信号来训练编码器和解码器，这有助于缓解标记数据不足的问题，并在分数注释之外提供更丰富的监督信号。标记和未标记的数据通过共享权重的编码器进行学习，这引导编码器学习与分数评估和基于上下文的段特征恢复相容的中间表示。对动作上下文的理解在动作评估中起着关键作用。因此，这种自监督训练机制可以引导模型从未标记的视频中学习具有区分性的表示。

针对标记和未标记数据的中间特征可能不对齐的问题，作者提出一种对抗性训练机制对齐两者之间的中间表示分布，引入判别器区分特征域，通过梯度反转层GRL，编码器混淆判别器，学习更具鲁棒性的特征表示。