摘要:视频的动作质量评估是一项具有挑战性的视觉任务,因为视频和动作分数之间的关系很难建模。通常,AQA被视为一个回归问题,以了解视频和动作分数之间的潜在映射。但以往的方法忽略了AQA数据集的数据不确定性。为了解决任意的不确定性,作者开发了一个即插即用模块分布自动编码器(DAE)。具体来说,它将视频编码成分布,并使用变分自编码器(VAE)中的重参数化技巧对分数进行采样,从而在视频和分数之间建立更准确的映射。同时,利用似然损失来学习不确定性参数。作者将DAE方法插入MUSDL和CoRe。公共数据集的实验结果表明,我们的方法在AQA-7、MTL-AQA和JIGSAWS数据集上达到了最先进的水平。文章代码公开在:https://github.com/InfoX-SEU/DAE-AQA
1.介绍
动作质量评估(AQA)是指对视频中的行为进行自动评分,分析一个动作的执行情况。相比于传统的视频动作识别(VAR)更具有挑战性。对于AQA而言,找出动作评分与视频之间的可靠联系至关重要,许多研究者尝试考虑将AQA视为回归问题,学习视频与动作分数之间的直接映射关系,他们采用3D卷积神经或LSTM提取视频特征,应用回归方法得到预测分数。
大多数现有AQA方法忽略了数据集固有的任意不确定性,AQA数据集由人为主观构建,存在观测噪声,标签与数据间的映射关系不精确,应被修正为:。鉴于上述考虑,有必要从统计的角度对观测噪声noise(x)进行建模。为此,作者将不确定性学习引入到AQA中,并提出了一种新的回归模型——分布自编码器(DAE)。利用DAE将视频特征合成为分数分布。然后通过重新参数化技巧从该分布中采样最终预测分数。相比于传统回归方法,DAE方法可以自动生成视频的固有目标分布。这样,我们的方法可以获得更好的预测性能。以高斯分布为例,如图1所示,DAE预测的动作分数是连续变化的,从数据集中自适应学习分数分布的方差。
![](https://i-blog.csdnimg.cn/blog_migrate/da3bafdcfe01963b81a904d2424255c4.png)
如图所示,不同的动作在裁判打分时具有不同的任意不确定性。DAE中的任意不确定性可以建模为特定的目标分布。例如,高斯分布。DAE可以从数据中学习自适应方差,从而获得更好的性能。
为证明方法的有效性,作者构建基于多层感知机的DAE模型。DAE-MLP需要分数与视频一一对应信息。DAE-MLP结构由特征提取器和编码器组成。首先,将动作视频输入I3D提取特征向量,然后通过编码器将特征向量编码为高斯分布,最终预测分数从分布中采样。
作者将DAE插入到MUSDL和CoRe,表明其方法是可拔插有效的。DAE-MT适用于多任务数据集,特征提取器与DAE-MLP相同,在编码器部分,DAE-MT预测七个裁判的七个分数,而不是最终分数。最终分数是难度与原始分数的乘积。
文章主要贡献如下所示:
1.提出即插即用的回归模块DAE,将视频特征映射到受VAE启发的分数分布中。解决前期工作训练过程中忽略的不确定性问题。
2.提出新的损失函数控制DAE训练。
3.在公共数据库上进行广泛的模型分析实验。
2.相关工作
2.1行为质量评估
行为质量评估通过分析从视频和图像中提取的特征,自动对动作质量进行评分。最早基于深度学习的动作质量评估模型由Parmar等人提出,他们使用C3D-SVR和C3D-LSTM预测奥运会成绩。基于最终分数是连续子动作分数集合的假设,引入增量标签训练方法对LSTM模型进行训练。Xiang等人选择将视频片段分解为特定动作片段,并融合片段的平均特征替换完整的视频。Parmar等人提出一种C3D-AVG-MTL方法学习时空特征,该方法解释三个相关任务:细粒度动作识别、评论生成和AQA分数估计,此外,他们大范围收集了新的多任务AQA数据集。Tang等人注意到行动得分的潜在模糊性,因而提出一种基于标签分布学习的不确定感知得分分布学习。多不确定性感知分数分布学习被设计用于拟合多任务数据集,它使用数据集中的裁判信息,并将每个裁判视为一个评分模型。对比回归使用两两策略来回归参考另一个视频的相对分数。以上模型虽然或多或少考虑数据不确定性的干扰,但没有测量数据不确定性,从而减少了噪声的影响。
2.2不确定性学习
不确定性研究的重点是如何测量模型或数据集中隐含的噪声。我们主要关注两种不确定性,即认知不确定性和异方差任意不确定性。认知不确定性来自模型参数或模型输出中的噪声,任意不确定性存在于数据集本身。很多研究者试图在建模中引入不确定性以获得更好的结果,其他人也考虑形成一个通用的学习范式来研究不确定性。Geng等人试图用一个特定的分布来表示一个实例,而不是用一个或多个标签。Pate等人使用使用风险水平框架来衡量不确定性。
2.3自编码
自编码器最早由Hinton等人提出,采用多层神经网络对高维数据进行低维表达。采用经典的瓶颈网络结构,将低维信息重构回解码器中的高维表示。随着深度学习的发展,创建了许多基于AE的变体模型,如用于图像去噪的Denoising Auto-Encoder,用于图像压缩和特征提取的卷积AE。根据变分贝叶斯推理,Diederik p.kingm和Max Welling在传统自编码器的基础上提出变分自编码器VAE,VAE使用一种独特的再参数化技巧对隐变量分布进行采样。作者所提出的模型也参考了VAE中的高斯分布编码和采样技术。具体来说,文中模型将视频特征映射到低维分布,并且不利用神经网络进行编码,通过重新参数化直接输出最终标签。
3.DAE-MLP模型
分布自编码器是一个即插即用的回归模块。作者首先基于基于MLP进行构建。DAE-MLP通过深度神经网络将视频剪辑映射到动作得分分布。模型由两部分组成,一个是用于获取视频特征的视频特征提取器,另一个是用于分布学习的自编码器。
![](https://i-blog.csdnimg.cn/blog_migrate/118c718be96858aebbb0d6641372a1a3.png)
DAE架构通道包括两个部分:视频特征提取网络和标签分布编码网络。通过下采样将视频拆分为n个小片段。然后将片段送入I3D网络进行特征提取。通过三个全连接层合成最终的特征。通过编码器将视频特征编码为高斯分布,并应用重参数化技巧从最终预测分数的分布中生成样本
3.1视频特征提取
获取n帧的动作视频,首先需要进行特征提取。如上图左侧所示,需要对完整视频进行下采样划分为n个视频片段。每一个视频片段包含相同数量的帧,代表连续的动作快照。下采样可以显著减少网络参数的数量,从而提高空间分辨率。
文章采用I3D网络在收集到的视频片段中进行特征提取。之后是三个全连接层,形成一个m维特征。不同的片段共享全连接层的确切权重,在得到n个视频片段的所有特征向量后,取平均值作为动作视频的最终特征向量。
3.2 DAE-MLP
相比于传统的回归方法,文中模型捕获任意不确定性。动作特征被编码到分数分布中,最终结果从自编码器输出中采样。该架构使得在训练过程中学习连续分布而不损失信息成为可能,并以较高的精度量化动作分数的不确定性。编码器使用神经网络同时编码均值和方差。输入的1024维特征通过神经网络被编码进参数
和
。
将动作得分作为一个随机变量,我们需要学习它的得分分布,然后从得到的分布中对预测得分进行采样。对于输入的特征,使用VAE的前半部分将1024维的视频特征通过一个概率编码器
编码为一个随机变量
。假设编码后的随机变量服从高斯分布。
参数和变量
被用于量化行为分数不确定性的质量。
重参数化技巧:为了从高斯分布中生成一个样本作为预测分数,并且充分利用分数分布中的两个参数,作者调用重参数化技巧。
根据VAE中的重参数化技巧,假设是随机变量,
,
是它的参数。作者可以将
表示为一个确定的变量。
,
是辅助变量,拥有独立边界
,
是通过
参数化的确定函数。
如上图右半部分所示,模型没有从分数分布中直接采样,而是首先从分布在中的
采样,然后根据自编码器输出的抽样随机变量
、平均参数
和方差参数
计算y。
通过应用重参数化技巧,分数分布采样是可微的确保编码器训练可行。
损失函数:从似然估计的角度考虑神经网络的优化,将目标表示为最大化目标分布的对数似然,我们得到一个损失函数形式:
公式第一项是一个常数,最大化时可以被忽略掉。由于最大化一个值等同于最小化这个值的负数,作者将整个损失函数表述为:
,
是重建损失
和支持损失
两个不同部分的权重。
越大表示对不确定信息
关注越多。相反,较大的
表示模型更关注回归信息。
3.3基于DAE的不确定性回归
通过比较DAE和传统回归方法展示引入不确定性后的改进。令,
代表输入数据,
代表标签。影响
的因素往往是多维度的。假设有
个因素
,线性等式可以被写为:
在对和
进行
次独立观察后,得到N组观测值
,满足下面的等式:
是独立的,和
拥有相同的分布。对回归问题
,可以采用最小二乘法等传统回归方法进行求解。假设误差符合正态分布
,估计误差方差可以表示为:
是真实和预测标签,r是相关系数
这种估计误差是基于回归数据X和观测噪声无关的假设,然而由于手头预测任务的高度非线性,观测噪声可能与回归数据在统计上耦合。传统的回归方法在进行回归时无法估计噪声方差。然而,在神经不确定性回归器中,可以同时拟合数据并具体估计误差。不确定度应该与X有关。公式可以写为:
DAE的预测标签是:
DAE引入的不确定性回归提供了数据增强,可看作是数据集中潜在分布的更好拟合。
4.DAE的即插即用应用程序
DAE是一种泛化方法,可以轻易插入任何回归模型。在回归中插入DAE允许基线捕获任意不确定性。
4.1DAE-MT
MUSDL适用于多任务数据集MTL-AQA。MUSDL表明,在MTL-AQA数据集中,来自多个裁判的分数和困难度是两个必不可少的信息。作者采用与MUSDL相同的国际跳水评分规则,即采用七个裁判评分,分别去掉两个最高分和最低分,剩下分数相加得到原始分数,原始分数与难度相乘得到最终分数。
作者将DAE插入到MUSDL提出DAE-MT,下图展示了DAE-MT的映射。采用DAE-MT预测裁判分数。预测的分数不带困难度。不确定性只有在裁判打分时才会出现。因此,直接构建视频和原始分数之间的关系是解决学习不确定性的更实际的选择。
![](https://i-blog.csdnimg.cn/blog_migrate/6cb3e809ceb457cc17b3c9c3d08ba0db.png)
DAE-MT使用困难度作为预测信息。因此,直接预测裁判分数分布。DAE-MT为每一个裁判输出分布。最终分数通过困难度与原始分数相乘得到。
4.2DAE-CoRe
CoRe使用对比策略回归输入视频和参考范例视频之间的相对分数。它将分数范围划分为几个不重叠区间,并在这些小区间用二叉树进行回归,最终结果可以写成:
表示CoRe回归量,
和
分别代表左右区间边界。
DAE非常容易插入CoRe回归量。作者修正二叉树最后回归层来捕捉任意不确定性。回归量可以从神经网络层修改为DAE框架。可以表述为:
5.实验
5.1数据集和指标
AQA-7:AQA-7是在AQA领域被广泛使用的运动数据集。它包含7种运动视频:370个跳水样本,176个跳马样本,175个滑雪样本,206个单板滑雪样本等等。所有的1189个样本被划分为863个训练集和326个测试集。
MTL-AQA:MTL-AQA包含1412个跳水样本,数据由16种不同的跳水项目组成。数据标签不仅有评委的AQA评分,还包括动作类和评论。作者将数据集分为1059个样本的训练集和353个测试集。
JIGSAWS:是一个用于人体运动建模的手术活动数据集,由三个主要任务组成:缝合、针头传递和打结。视频数据由两个摄像头采集,作者采用左摄像头进行实验。
评价指标:AQA使用斯皮尔曼秩相关性衡量模型在真实值和预测分数序列的表现。斯皮尔曼相关定义:
5.2实施细节
作者采用Pytorch框架实施DAE方法。使用两个NVIDIA RTX 3090 GPUs加速训练。此外,采用Intel(R) Core(TM)i9-9900KF CPU@3.6GHZ的16线程来加速数据加载。
自编码有三个网络层。作者选择ReLU作为激活函数。输入层尺寸是(1024,512),隐藏层尺寸是(512,256)和(256,128)。均值和方差的输出层都是(128,1).在评估DAE-MLP时,AQA-7和MTL-AQA学习率是,JIGSAWS-KT,-NP和-S学习率分别是
,
和
。将DAE-MT和DAE-CoRe的超参数设置为与原始基线文件相同。根据初步实验,选择损失权重为
,
。所有数据集上的优化器是Adam。在AQA-7和MTL-AQA数据集上,选择最高分作为模型在训练过程中的表现。在JIGSAWS数据集上,取10个连续得分最好的最终表现均值,与以往方法比较。
5.3实验结果
AQA-7:作者选择近五年的SOTA方法与DAE进行比较,结果如表1所示,相比于USDL,DAE-MLP方法在斯皮尔曼相关性上实现每个运动类别分别3.96%,2.43%,4.56%,1.70%,0.77%和0.83%。平均相关性秩提升了1.93%。可插拔DAE在跳水、体操跳高、单板滑雪等项目成绩也优于CoRe。
![](https://i-blog.csdnimg.cn/blog_migrate/11944ea544cd39a60305d8c9f98a75db.png)
MTL-AQA:作者进一步将DAE应用到MTL-AQA数据集验证方法的高效性,在更多细节上展示DAE和前人方法的不同。由于MTL-AQA存在多重判断信息,作者在数据集上同时使用DAE-MT和DAE-CoRe进行实验。下表第一个模块展示单任务训练方式结果。DAE-MLP预测相关系数达到0.9231。第二个模块表明该方法在多任务方式仍有很好的表现,最终相关系数达到0.9452,超越了基线模型MUSDL。DAE-CoRe也实现相比于CoRe更好的结果。
![](https://i-blog.csdnimg.cn/blog_migrate/1023432c6e1fab7fe1ec806bfc6565c3.png)
JIGSAWS:该实验数据集上的结果如下表所示,在三个手术视频中。DAE-MT取得相比于MUSDL更好的表现
![](https://i-blog.csdnimg.cn/blog_migrate/42302a6cb808e1ebd1d97acd415df1bc.png)
5.4分析
不同分布的研究:模型将特征编码为分布,但分布的形式并不局限于正态分布。对于任何location-scale分布的重参数化技巧,可以选择标准分布(location=0,scale=1)作为辅助变量
作者在MTL-AQA数据集上对拉普拉斯分布、椭圆分布、student's t分布、Logistic分布、均匀分布、三角分布和高斯分布进行并行实验。总结见下表,高斯分布在该数据上取得最好的结果。虽然结果很大程度上符合预期,但高斯分布在其他任务上的应用效果还需要进一步的实验验证。
![](https://i-blog.csdnimg.cn/blog_migrate/3121abb3e72f52cb48b41e4740ffaa67.png)
![](https://i-blog.csdnimg.cn/blog_migrate/117991a0e7a58bee86c2dfd2f3aac229.png)
不同分布的并行实验结果
案例研究:文中采用案例研究来比较不同视频在MTL-AQA和JIGSAWS数据集上DAE预测分布。
![](https://i-blog.csdnimg.cn/blog_migrate/23bc8653e646f54a7384ee20a5e72cb3.png)
比较不同视频在MTL-AQA和JIGSAWS数据集上的不同分布。不同操作表明不同的预测分布。
每一条线显示四个视频及其DAE预测分布。不同的动作质量产生不同的均值和方差分布,与实际表现相对应。以跳水为例,小的入水浪花带来更高的裁判评价,大的入水浪花导致较低分数。这证明了模型的有效性。DAE可以根据不同的视频内容进行高效预测。预测分布参数可以根据视频本身进行自适应调整。
回归分析:通过绘制散点图详细比较文章模型和回归基线。图(a)(b)展示了DAE-MLP和DAE-MT在数据集MTL-AQA上的结果。
![](https://i-blog.csdnimg.cn/blog_migrate/19bda8429581811ff61da77ff79dea84.png)
图(c)(d)(e)分别展示在JIGSAWA-KT,JIGSAWS-NP,JIGSAWA-S上的结果。回归目标是理想回归结果。点距离基线越近,回归结果越好。相比于回归基线,文章所提出的模型更接近于目标基线,而且模型预测更加集中。
文章进一步比较DAE和USDL、MUSDL、C3D-AVG-STL、C3D-AVG-MTL训练过程。在MTL-AQA数据集上的比较结果如下图所示。从图中可以看出,DAE最终稳定相关系数高于其他方法,并且DAE训练过程收敛更快,波动更小。
![](https://i-blog.csdnimg.cn/blog_migrate/c205484b1e477e5f043050db6fd6abc7.png)
此外,进行平行实验找到方差变化范围。文章对DAE-MLP进行二十轮训练,观察模型每轮训练表现最好的方差。
下图展示了并行比较结果,在MTL-AQA训练轮次中,方差变异范围是。JIGSAWS训练轮次是
。从四分位可以看出,五个观测值方差相对稳定。上下四分位线与中位线的距离大致相同。在JIGSAWS-NP中只有一个异常值,超出上边缘。
![](https://i-blog.csdnimg.cn/blog_migrate/dce465c74edf2979ff2e62860e34dd87.png)
损失学习:文章采用两部分似然损失函数,作者通过实验评估损失的有效性。采用传统的MSE损失作为对比
![](https://i-blog.csdnimg.cn/blog_migrate/e55db48f1265cc9d8ca188e48c607e49.png)
上表展示在MTL-AQA和JIGSAWS的消融实验结果。首先在MTL-AQA损失实验上采用单任务训练方法。当使用共同MSE损失时,预测分布均值更有可能接近最终预测分数。在这一点上减少方差的学习。文章回归结果更接近USDL基线。回归基线分数达到0.8905,文章模型分数达到0.9091。当采用似然损失时,发现训练性能得到很大提升。同时,经过多次观察,方差稳定性得到提高。DAE-MT在多任务训练方法表现与DAE有相似的趋势。当采用MSE损失时表现达到0.9415.当采用文中损失训练时,DAE-MT达到最佳表现,达到0.9415.相比于基线,最佳方法的表现提升了6.1%。表中第二个模块展示了在JIGSAWA的消融结果。可以看出综合损失的效果比单一损失和基线效果更好。
推断时间:所有方法一次应用10个视频样本,下表显示了MTL-AQA上的平均推断时间。实验采用NVIDIA RTX 3090测试所有模型。试验结果表明DAE插入到其他方法中只需要增加较少时间。
![](https://i-blog.csdnimg.cn/blog_migrate/1ace63f22d84a424cc98d5addcca7679.png)
6.结论
本文提出一种新的动作质量评估方法。参考变分自编码框架,作者提出一种新的回归模型,分布自编码器。此外,DAE是可拔插的,可以在任何回归模型上进行拓展。文章在AQA-7、MTL-AQA、JIGSAWS测试了该模型的有效性。为不确定性学习提供了一个通用的解决问题范式。使用特定的分布来表示实例,编码器获得分布的参数来量化标签的值,通过从分布中采样来量化不确定性。