论文分享:Auto-Encoding Score Distribution Regression for Action Quality Assessment

本文提出了一种基于分布自动编码器(DAE)的方法,用于视频动作质量评估(AQA),解决了数据集中的不确定性问题。通过将视频特征编码为分数分布,DAE能更好地捕捉和量化动作分数的不确定性。实验结果显示,DAE在AQA-7、MTL-AQA和JIGSAWS数据集上实现了最先进的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

摘要:视频的动作质量评估是一项具有挑战性的视觉任务,因为视频和动作分数之间的关系很难建模。通常,AQA被视为一个回归问题,以了解视频和动作分数之间的潜在映射。但以往的方法忽略了AQA数据集的数据不确定性。为了解决任意的不确定性,作者开发了一个即插即用模块分布自动编码器(DAE)。具体来说,它将视频编码成分布,并使用变分自编码器(VAE)中的重参数化技巧对分数进行采样,从而在视频和分数之间建立更准确的映射。同时,利用似然损失来学习不确定性参数。作者将DAE方法插入MUSDL和CoRe。公共数据集的实验结果表明,我们的方法在AQA-7、MTL-AQA和JIGSAWS数据集上达到了最先进的水平。文章代码公开在:https://github.com/InfoX-SEU/DAE-AQA

1.介绍

动作质量评估(AQA)是指对视频中的行为进行自动评分,分析一个动作的执行情况。相比于传统的视频动作识别(VAR)更具有挑战性。对于AQA而言,找出动作评分与视频之间的可靠联系至关重要,许多研究者尝试考虑将AQA视为回归问题,学习视频与动作分数之间的直接映射关系,他们采用3D卷积神经或LSTM提取视频特征,应用回归方法得到预测分数。 

大多数现有AQA方法忽略了数据集固有的任意不确定性,AQA数据集由人为主观构建,存在观测噪声,标签与数据间的映射关系不精确,应被修正为:y=F(x)+noise(x)。鉴于上述考虑,有必要从统计的角度对观测噪声noise(x)进行建模。为此,作者将不确定性学习引入到AQA中,并提出了一种新的回归模型——分布自编码器(DAE)。利用DAE将视频特征合成为分数分布。然后通过重新参数化技巧从该分布中采样最终预测分数。相比于传统回归方法,DAE方法可以自动生成视频的固有目标分布。这样,我们的方法可以获得更好的预测性能。以高斯分布为例,如图1所示,DAE预测的动作分数是连续变化的,从数据集中自适应学习分数分布的方差。

图片来源于论文:Auto-Encoding Score Distribution Regression for Action Quality Assessment

如图所示,不同的动作在裁判打分时具有不同的任意不确定性。DAE中的任意不确定性可以建模为特定的目标分布。例如,高斯分布。DAE可以从数据中学习自适应方差,从而获得更好的性能。
为证明方法的有效性,作者构建基于多层感知机的DAE模型。DAE-MLP需要分数与视频一一对应信息。DAE-MLP结构由特征提取器和编码器组成。首先,将动作视频输入I3D提取特征向量,然后通过编码器将特征向量编码为高斯分布,最终预测分数从分布中采样。

作者将DAE插入到MUSDL和CoRe,表明其方法是可拔插有效的。DAE-MT适用于多任务数据集,特征提取器与DAE-MLP相同,在编码器部分,DAE-MT预测七个裁判的七个分数,而不是最终分数。最终分数是难度与原始分数的乘积。

文章主要贡献如下所示:

1.提出即插即用的回归模块DAE,将视频特征映射到受VAE启发的分数分布中。解决前期工作训练过程中忽略的不确定性问题。

2.提出新的损失函数控制DAE训练。

3.在公共数据库上进行广泛的模型分析实验。

2.相关工作

2.1行为质量评估

行为质量评估通过分析从视频和图像中提取的特征,自动对动作质量进行评分。最早基于深度学习的动作质量评估模型由Parmar等人提出,他们使用C3D-SVR和C3D-LSTM预测奥运会成绩。基于最终分数是连续子动作分数集合的假设,引入增量标签训练方法对LSTM模型进行训练。Xiang等人选择将视频片段分解为特定动作片段,并融合片段的平均特征替换完整的视频。Parmar等人提出一种C3D-AVG-MTL方法学习时空特征,该方法解释三个相关任务:细粒度动作识别、评论生成和AQA分数估计,此外,他们大范围收集了新的多任务AQA数据集。Tang等人注意到行动得分的潜在模糊性,因而提出一种基于标签分布学习的不确定感知得分分布学习。多不确定性感知分数分布学习被设计用于拟合多任务数据集,它使用数据集中的裁判信息,并将每个裁判视为一个评分模型。对比回归使用两两策略来回归参考另一个视频的相对分数。以上模型虽然或多或少考虑数据不确定性的干扰,但没有测量数据不确定性,从而减少了噪声的影响。

2.2不确定性学习

不确定性研究的重点是如何测量模型或数据集中隐含的噪声。我们主要关注两种不确定性,即认知不确定性和异方差任意不确定性。认知不确定性来自模型参数或模型输出中的噪声,任意不确定性存在于数据集本身。很多研究者试图在建模中引入不确定性以获得更好的结果,其他人也考虑形成一个通用的学习范式来研究不确定性。Geng等人试图用一个特定的分布来表示一个实例,而不是用一个或多个标签。Pate等人使用使用风险水平框架来衡量不确定性。

2.3自编码

自编码器最早由Hinton等人提出,采用多层神经网络对高维数据进行低维表达。采用经典的瓶颈网络结构,将低维信息重构回解码器中的高维表示。随着深度学习的发展,创建了许多基于AE的变体模型,如用于图像去噪的Denoising Auto-Encoder,用于图像压缩和特征提取的卷积AE。根据变分贝叶斯推理,Diederik p.kingm和Max Welling在传统自编码器的基础上提出变分自编码器VAE,VAE使用一种独特的再参数化技巧对隐变量分布进行采样。作者所提出的模型也参考了VAE中的高斯分布编码和采样技术。具体来说,文中模型将视频特征映射到低维分布,并且不利用神经网络进行编码,通过重新参数化直接输出最终标签。

3.DAE-MLP模型

分布自编码器是一个即插即用的回归模块。作者首先基于基于MLP进行构建。DAE-MLP通过深度神经网络将视频剪辑映射到动作得分分布。模型由两部分组成,一个是用于获取视频特征的视频特征提取器,另一个是用于分布学习的自编码器。

图片来源于论文:Auto-Encoding Score Distribution Regression for Action Quality Assessment

 DAE架构通道包括两个部分:视频特征提取网络和标签分布编码网络。通过下采样将视频拆分为n个小片段。然后将片段送入I3D网络进行特征提取。通过三个全连接层合成最终的特征。通过编码器将视频特征编码为高斯分布,并应用重参数化技巧从最终预测分数的分布中生成样本

3.1视频特征提取

获取n帧的动作视频,首先需要进行特征提取。如上图左侧所示,需要对完整视频进行下采样划分为n个视频片段{c_1,...,c_n}。每一个视频片段包含相同数量的帧,代表连续的动作快照。下采样可以显著减少网络参数的数量,从而提高空间分辨率。

文章采用I3D网络在收集到的视频片段中进行特征提取。之后是三个全连接层,形成一个m维特征。不同的片段共享全连接层的确切权重,在得到n个视频片段的所有特征向量后,取平均值作为动作视频的最终特征向量。

3.2 DAE-MLP

相比于传统的回归方法,文中模型捕获任意不确定性。动作特征被编码到分数分布中,最终结果从自编码器输出中采样。该架构使得在训练过程中学习连续分布而不损失信息成为可能,并以较高的精度量化动作分数的不确定性。编码器使用神经网络同时编码均值和方差。输入的1024维特征x通过神经网络被编码进参数\mu (x)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值