论文分享：Auto-Encoding Score Distribution Regression for Action Quality Assessment

最新推荐文章于 2024-03-25 16:41:47 发布

gaohaohaoxuexi1

最新推荐文章于 2024-03-25 16:41:47 发布

阅读量2.1k

点赞数 29

文章标签：深度学习

本文链接：https://blog.csdn.net/gaohaohaoxuexi1/article/details/136670613

版权

本文提出了一种基于分布自动编码器(DAE)的方法，用于视频动作质量评估(AQA)，解决了数据集中的不确定性问题。通过将视频特征编码为分数分布，DAE能更好地捕捉和量化动作分数的不确定性。实验结果显示，DAE在AQA-7、MTL-AQA和JIGSAWS数据集上实现了最先进的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要：视频的动作质量评估是一项具有挑战性的视觉任务，因为视频和动作分数之间的关系很难建模。通常，AQA被视为一个回归问题，以了解视频和动作分数之间的潜在映射。但以往的方法忽略了AQA数据集的数据不确定性。为了解决任意的不确定性，作者开发了一个即插即用模块分布自动编码器(DAE)。具体来说，它将视频编码成分布，并使用变分自编码器(VAE)中的重参数化技巧对分数进行采样，从而在视频和分数之间建立更准确的映射。同时，利用似然损失来学习不确定性参数。作者将DAE方法插入MUSDL和CoRe。公共数据集的实验结果表明，我们的方法在AQA-7、MTL-AQA和JIGSAWS数据集上达到了最先进的水平。文章代码公开在：https://github.com/InfoX-SEU/DAE-AQA

1.介绍

动作质量评估（AQA）是指对视频中的行为进行自动评分，分析一个动作的执行情况。相比于传统的视频动作识别（VAR）更具有挑战性。对于AQA而言，找出动作评分与视频之间的可靠联系至关重要，许多研究者尝试考虑将AQA视为回归问题，学习视频与动作分数之间的直接映射关系，他们采用3D卷积神经或LSTM提取视频特征，应用回归方法得到预测分数。

大多数现有AQA方法忽略了数据集固有的任意不确定性，AQA数据集由人为主观构建，存在观测噪声，标签与数据间的映射关系不精确，应被修正为： $y=F(x)+noise(x)$ 。鉴于上述考虑，有必要从统计的角度对观测噪声noise(x)进行建模。为此，作者将不确定性学习引入到AQA中，并提出了一种新的回归模型——分布自编码器(DAE)。利用DAE将视频特征合成为分数分布。然后通过重新参数化技巧从该分布中采样最终预测分数。相比于传统回归方法，DAE方法可以自动生成视频的固有目标分布。这样，我们的方法可以获得更好的预测性能。以高斯分布为例，如图1所示，DAE预测的动作分数是连续变化的，从数据集中自适应学习分数分布的方差。

图片来源于论文：Auto-Encoding Score Distribution Regression for Action Quality Assessment

如图所示，不同的动作在裁判打分时具有不同的任意不确定性。DAE中的任意不确定性可以建模为特定的目标分布。例如，高斯分布。DAE可以从数据中学习自适应方差，从而获得更好的性能。
为证明方法的有效性，作者构建基于多层感知机的DAE模型。DAE-MLP需要分数与视频一一对应信息。DAE-MLP结构由特征提取器和编码器组成。首先，将动作视频输入I3D提取特征向量，然后通过编码器将特征向量编码为高斯分布，最终预测分数从分布中采样。

作者将DAE插入到MUSDL和CoRe，表明其方法是可拔插有效的。DAE-MT适用于多任务数据集，特征提取器与DAE-MLP相同，在编码器部分，DAE-MT预测七个裁判的七个分数，而不是最终分数。最终分数是难度与原始分数的乘积。

文章主要贡献如下所示：

1.提出即插即用的回归模块DAE，将视频特征映射到受VAE启发的分数分布中。解决前期工作训练过程中忽略的不确定性问题。

2.提出新的损失函数控制DAE训练。

3.在公共数据库上进行广泛的模型分析实验。

2.相关工作

2.1行为质量评估

行为质量评估通过分析从视频和图像中提取的特征，自动对动作质量进行评分。最早基于深度学习的动作质量评估模型由Parmar等人提出，他们使用C3D-SVR和C3D-LSTM预测奥运会成绩。基于最终分数是连续子动作分数集合的假设，引入增量标签训练方法对LSTM模型进行训练。Xiang等人选择将视频片段分解为特定动作片段，并融合片段的平均特征替换完整的视频。Parmar等人提出一种C3D-AVG-MTL方法学习时空特征，该方法解释三个相关任务：细粒度动作识别、评论生成和AQA分数估计，此外，他们大范围收集了新的多任务AQA数据集。Tang等人注意到行动得分的潜在模糊性，因而提出一种基于标签分布学习的不确定感知得分分布学习。多不确定性感知分数分布学习被设计用于拟合多任务数据集，它使用数据集中的裁判信息，并将每个裁判视为一个评分模型。对比回归使用两两策略来回归参考另一个视频的相对分数。以上模型虽然或多或少考虑数据不确定性的干扰，但没有测量数据不确定性，从而减少了噪声的影响。

2.2不确定性学习

不确定性研究的重点是如何测量模型或数据集中隐含的噪声。我们主要关注两种不确定性，即认知不确定性和异方差任意不确定性。认知不确定性来自模型参数或模型输出中的噪声，任意不确定性存在于数据集本身。很多研究者试图在建模中引入不确定性以获得更好的结果，其他人也考虑形成一个通用的学习范式来研究不确定性。Geng等人试图用一个特定的分布来表示一个实例，而不是用一个或多个标签。Pate等人使用使用风险水平框架来衡量不确定性。

2.3自编码

自编码器最早由Hinton等人提出，采用多层神经网络对高维数据进行低维表达。采用经典的瓶颈网络结构，将低维信息重构回解码器中的高维表示。随着深度学习的发展，创建了许多基于AE的变体模型，如用于图像去噪的Denoising Auto-Encoder，用于图像压缩和特征提取的卷积AE。根据变分贝叶斯推理，Diederik p.kingm和Max Welling在传统自编码器的基础上提出变分自编码器VAE，VAE使用一种独特的再参数化技巧对隐变量分布进行采样。作者所提出的模型也参考了VAE中的高斯分布编码和采样技术。具体来说，文中模型将视频特征映射到低维分布，并且不利用神经网络进行编码，通过重新参数化直接输出最终标签。

3.DAE-MLP模型

分布自编码器是一个即插即用的回归模块。作者首先基于基于MLP进行构建。DAE-MLP通过深度神经网络将视频剪辑映射到动作得分分布。模型由两部分组成，一个是用于获取视频特征的视频特征提取器，另一个是用于分布学习的自编码器。

DAE架构通道包括两个部分：视频特征提取网络和标签分布编码网络。通过下采样将视频拆分为n个小片段。然后将片段送入I3D网络进行特征提取。通过三个全连接层合成最终的特征。通过编码器将视频特征编码为高斯分布，并应用重参数化技巧从最终预测分数的分布中生成样本

3.1视频特征提取

获取n帧的动作视频，首先需要进行特征提取。如上图左侧所示，需要对完整视频进行下采样划分为n个视频片段 ${c_1,...,c_n}$ 。每一个视频片段包含相同数量的帧，代表连续的动作快照。下采样可以显著减少网络参数的数量，从而提高空间分辨率。

文章采用I3D网络在收集到的视频片段中进行特征提取。之后是三个全连接层，形成一个m维特征。不同的片段共享全连接层的确切权重，在得到n个视频片段的所有特征向量后，取平均值作为动作视频的最终特征向量。

3.2 DAE-MLP

相比于传统的回归方法，文中模型捕获任意不确定性。动作特征被编码到分数分布中，最终结果从自编码器输出中采样。该架构使得在训练过程中学习连续分布而不损失信息成为可能，并以较高的精度量化动作分数的不确定性。编码器使用神经网络同时编码均值和方差。输入的1024维特征 $x$ 通过神经网络被编码进参数 $\mu (x)$ 和

最低0.47元/天解锁文章