Auto-Encoding Score Distribution Regression for Action Quality Assessment 论文笔记

一、概述

Auto-Encoding Score Distribution Regression for Action Quality Assessment(DAE)是CVPR 2021年的一篇论文,在2022年是动作质量评估AQA任务上的SOTA工作。

1.现状

评估动作质量具有挑战性,视频与动作得分之间的关系难以建模。

2.现有方法

被视为一个回归问题来学习视频和动作分数之间的潜在映射。

3.问题

忽略了AQA数据集中的数据不确定性 。

4.本文方法

它将视频特征编码成分布 ,并使用 VAE 中的重参数化技巧 对分数进行采样,从而在视频和分数之间建立了更准确的映射。

5.主要贡献

为了解决任意不确定性,开发了即插即用模型—分布自编码器 Distribution
Auto Encoder(DAE ),在AQA-7、MTL-AQA 和 JIGSAWS上取得了最好的性能。

二、研究方法

传统方法都是回归视频的分数,但是大多数方法都忽略了数据集中固有的任意不确定性。数据集的构建包含裁判的打分,这就意味着存在观测噪声会破坏目标值,就不存在精确的视频和分数之间的映射。改进后的映射形式表示为:
y = F ( x ) + n o i s e ( x ) y=\bm F(\bm x)+\bm{noise}(\bm x) y=F(x)+noise(x)
DAE中,不确定性可以被建模为特定的目标分布,例如高斯分布(见图):
在这里插入图片描述
然后通过VAE中的重参数化技巧从这个分布中抽样得到最终的预测分数。

DAE

Distribution auto-encoder model(DAE),即分布自编码器,模型架构图如下:
在这里插入图片描述

①首先降采样成n个视频片段,输入I3D模型提取特征;
②三个全连接层,最后以所有特征的均值作为动作视频的最终特征向量;
③将视频特征编码为高斯分布,用再参数化技巧从最终预测分数的分布中生成样本。
(首先,整个动作视频被降采样,分为n个视频片段,{c1,…,cn}。每个视频片段包含相同数量的帧,代表一个连续的动作快照。然后通过I3D模型提取出特征,然后是三个全连接层,最后以n个视频片段的所有特征向量的平均值作为动作视频的最终特征向量,以保证每个视频片段的信息被相等地考虑。然后用编码器将视频特征编码为高斯分布,并应用VAE中的重参数技巧从最终预测分数的分布中生成样本。)

VAE简介

因为这篇论文的DAE主要用到的是VAE的思想,那么下面我们简要介绍下VAE模型:

在这里插入图片描述
VAE也就是Variational Auto Encoder变分自编码器,思想如下:

①简单来说,图像x经过编码器得到特征,再经过解码器得到图像x’,使得图像x’尽可能地重构原始图像x;
②具体来说,图像经过编码器之后,去学习的不再是AE里面的bottleneck特征,而是去学习一个分布(假定高斯分布), 之后再加一些FC层去预测分布的均值和方差,再去从预测到的分布中采样一个z;
③然后z经过解码器,就可以去生成图像。

DAE呢,是将动作得分作为一个随机变量,需要学习它的得分分布,然后从分布中抽取预测的得分。对于输入特征,利用VAE结构的前半部分,通过概率编码器将1024维视频特征x编码为随机变量z。假定编码的随机变量服从高斯分布。其中µ(x)是均值,σ 2 (x)是方差,µ(x)用于量化行动分数的质量,σ 2 (x)用于量化行动分数的不确定性。

DAE的一个重点是用到了VAE中的重参数化技巧(Reparameterization Trick),下面介绍一下VAE中的重参数化技巧:

在VAE中,在sample z的时候,实际上做了一个不可导的计算,导致encoder和decoder之间无法传递梯度,但是在假设中,z必须依赖于encoder。解决的关键在于,不直接从编码得到的分布来sample z,而是先从一个标准正态分布采样一个值ε,然后通过μ 和σ 把这个值变换到得到的分布上,即:
从 N ( μ , σ 2 ) 中采样一个 z ,相当于从 N ( 0 , 1 ) 中采样一个 ε ,然后让 z = μ + σ × ε 从N(μ,σ 2)中采样一个z,相当于从N(0,1)中采样一个ε ,然后让 z=μ +σ ×ε N(μ,σ2)中采样一个z,相当于从N(0,1)中采样一个ε,然后让z=μ+σ×ε

DAE在其他模型中的应用

DAE是一种泛化方法,它可以很容易地插入任何回归模型,去捕获不确定性,如DAE-MT和DAE-CoRe。

1.DAE-MT(基于MUSDL)

MUSDL表明来自多个裁判的分数和难度程度是两个重要的信息,使用它们来计算运动员的最终分数可能会更合理。采用与MUSDL相同的国际跳水评分规则:七名裁判得分,然后分别去掉两个最低分和两个最高分。剩下的三个分数相加得到原始分数。最终的分数是通过将原始分数和难度相乘得到的。不确定学习只在裁判原始分数上发生。
在这里插入图片描述

2.DAE-CoRe(基于CoRe)

CoRe使用了一种对比策略来回归一个输入视频和几个范例视频之间的相对分数。它将分数的范围划分为几个不重叠的区间,并使用二叉树,在概率最大的叶子节点所表示的小区间内进行回归,最终的回归结果可以写成:
y = R ( I r i g h t − I l e f t ) + I l e f t y=R(I_{right}-I_{left})+I_{left} y=R(IrightIleft)+Ileft
DAE插入CoRe的回归:修改了二叉树的最后一个回归层以捕获不确定性。回归R可以从神经网络层修改为DAE框架。
y = μ ⋅ ( I r i g h t − I l e f t ) + σ ϵ ⋅ ( I r i g h t − I l e f t ) + I l e f t y=\mu \cdot (I_{right}-I_{left})+\sigma \epsilon\cdot (I_{right}-I_{left})+I_{left} y=μ(IrightIleft)+σϵ(IrightIleft)+Ileft

三、实验结果

------ on AQA-7

在这里插入图片描述

------ on MTL-AQA

在这里插入图片描述

------ on JIGSAWS

在这里插入图片描述

Case

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

四、关于分布的分析

文章在MTL-AQA数据集上对拉普拉斯分布、椭圆分布、学生t分布、逻辑分布、均匀分布、三角分布和高斯分布进行了平行实验。发现高斯分布在这个数据集上表现最好。但这并不意味着高斯分布在其他数据集或其他视频评估任务中是最合适的。对于特定的数据集和应用,需要通过进一步的实验来选择最佳的分布。
在这里插入图片描述

五、总结

针对变分自编码器VAE的体系结构,文章提出了一种新的回归模型—分布自编码器DAE。此外,DAE是可插拔的,并且可以在任何回归方法上进行扩展,在AQA-7、MTL-AQA和JIGSAWS上表明该方法比最先进的方法性能更好,推理的时间成本增量也是可以接受的。虽然这篇文章是明显针对于动作质量评估的,但是DAE为不确定性学习提供了一个一般的解决范式,用一个特定的分布来表示一个实例(或特征),该分布的参数由编码器获得来量化标签的值,而不确定性通过从该分布中抽样来量化。在未来,计划将该方法应用于其他视频分析问题,如年龄估计、和面部美容预测。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值