Uncertainty-aware Score Distribution Learning for Action Quality Assessment
摘要:近年来基于视频的行为质量评估吸引了越来越多的关注。大多数现有方法通常基于回归算法解决这个问题,这些算法忽略由多个裁判或他们的主观评价引起的分数标签内在模糊性。为了解决这个问题,本文提出一种用于行动质量评估的不确定性感知得分分布学习方法。具体来说,作者将行为动作视为与分数分布相关的实例,描述不同评估分数的概率。此外,在细粒度分数标签可用的情况下(例如,动作的难度或不同裁判的多个分数),作者进一步设计多路径不确定性感知分数分布学习方法探索分数的解纠缠成分。作者在三个AQA数据集上进行实验,验证方法的有效性。
1.介绍
动作质量评估旨在评估特定动作的执行情况,由于其在各种实际应用中的潜在价值,已成为计算机视觉界一个新兴且有吸引力的研究课题。相比于关注不同类别行为序列正确分类的传统的动作识别问题,AQA需要处理类内区分度低的相同类别视频,是一个更有挑战性的任务。
在过去的几年里,提出了大量有关AQA的方法。然而为了直接预测动作得分,他们大多数将AQA简单视为回归问题。不幸的是,他们的表现确实不佳。这种限制的根源在于忽视行动得分标签的潜在模糊性,而这正是AQA关键问题之一。这种歧义是由动作标签产生过程造成的。如下图所示,对于跳水比赛,当运动员完成难度为3.8的动作后,七个评委分别给出。去掉两个最高分和两个最低分,最终的分数计算为:
。这表明最终分数的内在不确定性是由不同裁判导致的。此外,每个裁判的主观评价也可能带来不确定性。除了跳水运动外,这种现象也存在于诸如滑雪、体操跳马等。复杂的分数不确定性导致准确的AQA相当困难。因此,设计一个鲁棒模型处理AQA的不确定性是非常有必要的。
为解决这个问题,我们提出一个不确定感知分数分布学习方法,该方法利用不同分数分布作为监督信号。采用的分数分布可以更好地描述AQA得分概率,从而可以很好的处理不确定性问题。

最后一行展示了奥林匹克运动跳水,最终得分基于难度和多位裁判计算得到。为计算评估过程不确定性,利用高斯分布建模最终分数,使用多个高斯分布建模不同裁判的分数。
如上图左上角所示,作者基于广泛使用的高斯函数产生真实得分分布,均值被设置成分数标签。同时,将一段动作视频输入3D卷积网络产生预测分数分布。然后对真实分数分布和预测分数之间的KL散度进行优化。回顾上图,一旦细粒度分数标签可用(例如,行为难度或者不同裁判多个分数),作者进一步设计一个多路径不确定感知分数分布学习方法来充分探索最终分数的解纠缠组成。在推理过程中,严格遵守游戏规则,融合多个预测分数来获得最终分数。通过这个客观过程,作者可以得到最准确的结果。本文方法是对AQA问题利用更精细级别分数标注最初努力。文中采用大量实验验证方法的有效性。
2.相关工作
动作质量评估:在过去几年里,有各种各样的工作致力于不同的AQA任务。如医疗、教学视频分析,运动视频分析等。Pirsiavash首先基于几个特定动作的手工特征探索这个任务,他们迈出将学习方法应用于底层任务的第一步,并且训练一个线性SVR模型来回归视频分数。Parmar等提出C3D-SVR和C3D-LSTM模型预测奥运会项目分数。此外,在假设最终分数是连续子动作分数的集合的基础上,引入增量标签训练方法训练LSTM模型。也有研究者分别通过探索全动作模型和多任务学习提高评分性能和泛化能力。Xu等人设计两个新的基于LSTM的模型学习视频的多尺度信息。与专注于提取全景特征不同,Pan等人提出一种基于图的模型充分研究运动员姿势信息。他们的方法很好地平衡了身体各部位运动的作用和不同关节之间的协调。与上述基于回归的AQA方法不同,作者提出的USDL方法旨在预测输入动作视频的分数分布,而不是单一的分数,从而可以很好地处理严重的分数不确定性,这在很大程度上限制AQA的性能。
标签分布学习:标签分布学习是一种通用的学习范式,描述了一种分布实例而不是单个或多个标签。作为一项开创性的工作,Geng等人提出一种LDL框架用于面部年龄评估,该框架为每一张面部图像分配一个年龄分布,并且利用IIS-LLD和CPNN两个算法对该分布进行学习。受到前人基于手工提取特征成功的激励,结合深度学习模型,后续研究者提出了LDL的改进工作。近年来,LDL在各种计算机视觉任务中也显示出其有效性。包括头部姿势估计等。对于视频分析,Geng等人提出一种软语法分析方法进行视频分析工作,该方法通过不同子动作类的程度描述视频片段。Ling等利用混合高斯分布对不同视频帧内人群数量的逐渐变化进行建模,用于室内人群计数。对于本文提出的方法,通过将给定的单个分数标签转换为用于学习的类高斯分数分布。作者可以直接估计视频动作分数分布,从而提供比仅预测单个分数更准确的AQA结果。
多标签学习:包括AQA在内的越来越多的计算机视觉应用需要多标签学习。近年来,研究人员提出了包含细粒度行为标签的MTL-AQA数据集。除了每个序列的最终分数标签,还提供动作类和评论类标签,便于多标签学习。在这项工作中,没有使用来自其他任务的额外标签信息,而是利用来自所有评委的个人得分标签和动作难度标签进行多标签学习,期望获得更好的AQA性能。
3.方法
3.1USDL
管道概述:对于一个给定的L帧输入视频,利用滑动窗口将其分割成
个重叠的片段,每一个片段包含
个连续帧。采集的片段进一步送入I3D骨干网络和三个全连接层,获得
个特征
。全连接层的权值在不同片段间共享。如下图所示,为了处理额外的特征,被很多现有AQA采用的简单方法是通过最大池化或平均池化进行融合,回归预测最终分数。

提出的不确定性感知分数分布学习流程。输入视频帧被切分成个片段,进入I3D网络进行特征提取。经过三个全连接层后,经过时间池化对获取的特征进行融合,经过softmax层产生预测分布。然后优化了预测分布和由分数标签生成的高斯分布之间的KL损失。
在本文工作中,不同于前人工作,作者利用USDL框架处理AQA分数中的固有歧义,处理细节如下所示。
分数分布产生:在训练阶段,给一个与标记分数相关的视频,首先产生一个均值为
,标准差
的高斯函数
。
是一个超参数,用于评估动作的不确定性水平。将分数区间统一离散为分数集
,用一个向量描述每个分数的程度
。最终的分数分布标签
由
归一化得到
从分数分布中学习:为了从获得的分布中学习,作者将
个学习特征
映射到
个预测分数
,
和
拥有相同的尺寸。然后,对输出向量
执行时间平均池化。在
使用激活函数后,得到最终预测分数为
。最后,学习损失计算为
和
的KL散度。
从分数分布中推断:在推断阶段,作者将输入的测试视频转发到优化模型中,得到相应预测分数分布。最终的评估是通过选择概率最大的分数获得
3.2MUSDL
现有大多数AQA工作,网络模型是基于单分数监督进行设计和优化的。然而,在很多奥运赛事中(跳水、滑雪等),最终的分数是基于从多个裁判获得的多个分数,根据固定标准计算得到的。利用最近发布的MTL-AQA数据集,将不同评委的原始标注和难度作为中间成分。在本小节中,作者将进一步介绍一种多路径架构,利用这些中间组件实现AQA。
从多路径分数分布中学习:如下图所示,对于每一个单路径,作者使用相同的技术作为USDL方法。不同路径的全连接层被单独训练,I3D骨干在路径间共享。在训练阶段,假设从个不同的裁判获得分数子集
。首先按照递增顺序对分数进行排列,训练不同严格程度裁判的子网络。根据高斯分布公式,生成
高斯分布
。给定一个训练视频,首先通过I3D网络获得
个特征
。获得的特征通过
个子网络获得
个最终预测分布
总训练损失为:

多路径不确定性感知分数分布学习。在训练阶段,将来自个裁判的分数建模为不同的高斯分布。使用相似的方法训练包含
个子网络的模型。在测试阶段,根据
个预测分数和游戏规则获得最终评估结果。
基于规则的多路径推断:在推理阶段,通过多路径模型传递每一个测试视频获得个最终预测分数
。根据跳水运动的特殊规则,可以获得最终分数
表示子集
(例如,跳水运动去除两个最高分和两个最低分)。
代表输入视频提前发布的难度。事实上,即使在推理阶段没有提供DD,仍然可以通过在训练期间引入侧网络分支预测DD。在推理过程中直接使用预测的
4.实验
4.1数据集和实验设置
AQA-7:数据集包含来自7种运动的1189个样本。考虑到蹦床视频较长,作者去除了蹦床样本。其余数据集按照803个训练集和303个测试集进行设置。
MTL-AQA:该数据集包含1412个细粒度样本,来自16个不同事件,具有不同的视角。数据集提供不同类型注释,以实现对不同任务的研究,包括动作质量评估、动作识别和评论生成。此外,还提供七位裁判的原始分数注释和每个动作的难度。本文将数据集分成1059个训练集和353个测试集。
JIGSAWS:除了运动事件外,进一步在JIGSAWS数据集上评估本文模型,该数据集主要包含外科手术活动.该数据集主要有三个任务:缝合、传针和打结。
评价方案:本文使用Spearman秩相关来衡量模型性能
、
分别表示两个序列的秩。
的
值被用于衡量跨动作平均性能。
4.2实施细节
利用在Kinetics数据集上预训练的I3D模型作为特征提取器,采用包含16帧的动作序列作为输入,输出1024维特征。在AQA-7和MTL-AQA数据集上,视频都是103帧,本文按照一定规则将每个视频分成10个片段。MLP包含两个隐藏层FC(256,ReLU)和FC(128,ReLU)以及时间池化层和softmax层,为每个视频构建分数分布。为了更好的结果,我们在MTL-AQA和JIGSAWS数据集特征级上进行时间池化。采用Adam进行网络优化。在实验环节,本文在MTL-AQA数据集和7个裁判分数上归一化最终分数。对于最终的分数,考虑到其为浮点数,归一化为:
对于MTL-AQA数据集上的裁判分数,由于这些分数本质上离散的,而不是整数。因此通过对原始分数加倍进行规范。在生成归一化分数之后,生成均值为
的高斯函数。
4.3AQA-7数据集结果
下表展示了本文方法和其他AQA方法对比试验结果。相比于C3D-LSTM、C3D-SVR、JRG,简单高效的回归模型取得良好的结果。

不同分布研究:本文进行三个只改变分布的并行实验。生成分布,其均值为归一化分数,自由度等于分数范围的
。三角分布是对称的,在归一化分数处概率最大。所有分布都被截断离散化以适应分数范围。如下表所示,高斯分布平均相关性最高,三角分布平均相关性最差。

时间演化的可视化:选择Gym Vault类的视频可视化分数分布的时间演化。得到10个片段的分数分布,并将其绘制在图上。视频真实分数很低,网络给出的预测分数也很低。从分数分布的时间演化中可以看出网络是如何进行预测的。在第七和第八段,运动员摔倒在地,导致了两个显著的低分预测。

分数分布在时间域的变化。xyz轴表示剪辑数,分数和预测某个分数的概率。
4.4MTL-AQA数据集结果
下表展示在MTL-AQA数据集上的对比试验结果。相比于表中的其他方法,回归模型取得很有竞争力的结果。

消融研究:如下表所示,普通的回归模型和USDL模型不使用来自DD的信息和裁判分数。于USDL框架相同,但是由多裁判分数生成分布标签。最终的预测是结合DD和预测裁判评分获得,与MUSDL方法相同。
方法在执行多任务学习时相比于先前的MUSDL方法增加额外的分支,例如,同时从七个裁判和DD训练网络得到预测分数。

在推理阶段,在网络中联合裁判分数和DD预测获得最终的分数。
可视化:如下图所示,首先使用评估消融的方法使用累积评分曲线进行研究。在处累积预测准确率计算为:
。
表示预测误差小于阈值的视频个数。

作者选择回归模型、USDL和MUSDL方法,绘制散点图进行进一步比较。散点表示预测分数,虚线表示真实分数。

极端样本测试结果如下图所示,17-74案例中,本文模型对跳水分数进行精准的预测,但是17-35案例,由于运动员出现重大失误,导致得分为0,但模型未进行正确的预测。这表明,模型对于距离正常水平太远样本的预测效果有限。

4.5JIGSAWS数据集结果
由于JIGSAWS数据集相比于AQA-7和MTL-AQA更长,本文对每个视频160帧进行均匀采样,并将其分为10个片段作为模型输入,实验结果如下表所示

5.结论
本文提出一种用于行为质量评估的不确定感知分数分布学习方法,旨在解决分数标签固有的模糊性问题。此外,还设计一个多路径不确定感知分数分布框架,以利用额外的细粒度分数标签。