Assessing the Quality of Actions 论文笔记
一、研究动机
评估动作质量的方法在医疗(患者在住院后执行日常任务时,通常会受到监控和评估,如果没有自动评估方法,这是一项昂贵的任务)、体育(允许运动员在摄像机前练习,并实时接收质量分数,为运动员提供快速反馈和改进动作的机会)和视频检索(视频搜索引擎可能希望根据所执行操作的质量而不是相关性对结果进行排序)中有许多实际应用,但在计算机视觉中还尚未探索。
二、所做工作及贡献
①引入了一个通用的基于学习的框架,用于使用时空姿势特征评估人体动作的质量;
②系统向表演者提供可解释的反馈,说明如何提高他们的动作质量;通过找出哪些片段对动作质量贡献最大来创建视频的亮点
③发布了一个新的动作质量评估数据集,以期促进这项任务的未来研究。
三、创新点
首个提出学习评估视频中基于人体的动作质量的一般框架,通过提取人的时空姿势特征,并用最少的注释,估计预测动作得分的回归模型来工作。
四、研究思路
从视频中提取姿势特征,通过姿势特征到质量分数的回归来学习动作质量评估模型
1.姿势特征的提取:
p ( j ) ( t ) p^{(j)}(t) p(j)(t): 视频第t帧中第j个关节的x分量, p ( 0 ) ( t ) p^{(0)}(t) p(0)(t): 视频第t帧中头部位置的x分量
相对于头部位置的关节位置:
q
(
j
)
(
t
)
=
p
(
j
)
(
t
)
−
p
(
0
)
(
t
)
q^{(j)}(t)=p^{(j)}(t)-p^{(0)}(t)
q(j)(t)=p(j)(t)−p(0)(t)
q
(
j
)
q^{(j)}
q(j): 第j个关节的x分量,是时间的函数,通过离散余弦变换(DCT)在频域中表示(A是离散余弦转换矩阵):
Q
j
=
A
q
j
Q^j=Aq^j
Qj=Aqj
使用k个最低频率分量创建特征向量
ϕ
j
=
∣
Q
1
:
k
j
∣
\phi_j=|Q^j_{1:k}|
ϕj=∣Q1:kj∣
计算x和y分量的每个关节的
ϕ
j
\phi_j
ϕj,连接起来以创建最终的特征向量
ϕ
\phi
ϕ
运行姿势估计算法查找每个帧中关节的位置,用[33]找到单帧最佳姿势,用[34]找到N个最佳姿势,用动态编程算法关联姿势,以在整个视频中找到最佳轨迹。
2.回归:
Φ i ∈ R k × n \Phi_i∈R^{k\times n} Φi∈Rk×n 是矩阵形式的视频i的姿势特征,其中n是关节数,k是低频分量数
y i ∈ R y_i∈R yi∈R 表示视频i中动作的真实质量分数,由专家人工判断得出
用线性支持向量回归 LSVR 预测训练集上给定特征 Φ i \Phi_i Φi的 y i y_i yi, 用 libsvm
进行交叉验证以估计超参数
3.反馈建议:
① 计算得分相对于每个关节位置的梯度 ∂ S ∂ p ( j ) ( t ) \frac{\partial S}{\partial p^{(j)}(t)} ∂p(j)(t)∂S,S是得分函数
通过计算最大梯度找到表演者必须移动的关节和方向,以改进得分
② L-SVR学习了一个权重向量
W
∈
R
k
×
n
W∈R^{k\times n}
W∈Rk×n,使得W通过点积预测动作质量得分:
S
=
∑
f
=
1
k
∑
j
=
1
n
W
f
j
Φ
f
j
S=\sum_{f=1}^k\sum_{j=1}^nW_{fj}\Phi_{fj}
S=f=1∑kj=1∑nWfjΦfj
其中,
Φ
f
j
\Phi_{fj}
Φfj是第j个关节的第f个频率分量
③ 计算得分S相对于每个关节位置
p
(
j
)
(
t
)
p^{(j)}(t)
p(j)(t)的梯度:
∂
S
∂
p
(
j
)
(
t
)
=
∑
f
=
1
k
A
f
j
W
f
j
⋅
s
i
g
n
(
∑
t
′
=
1
T
(
A
f
t
′
(
p
(
j
)
(
t
′
)
−
p
(
0
)
(
t
′
)
)
)
)
\frac{\partial S}{\partial p^{(j)}(t)}=\sum_{f=1}^kA_{fj}W_{fj}\cdot sign(\sum_{t'=1}^T(A_{ft'}(p^{(j)}(t')-p^{(0)}(t'))))
∂p(j)(t)∂S=f=1∑kAfjWfj⋅sign(t′=1∑T(Aft′(p(j)(t′)−p(0)(t′))))
通过计算最大 m a x p ( j ) ( t ) ∂ S ∂ p ( j ) ( t ) max_{p^{(j)}(t)}\frac{\partial S}{\partial p^{(j)}(t)} maxp(j)(t)∂p(j)(t)∂S,可以找到表演者必须移动的关节和方向,以最大程度地提高分数。
4.视频重点:
测量一个视频片段对质量分数的影响,有助于总结导致高分数或低分数的行动部分。
一个片段的影响定义为,如果该片段被删除,质量分数会改变多少。
使用
Q
^
j
\hat{Q}^j
Q^j为缺失片段的视频创建特征向量。最后,我们通过计算原始特征向量和包含缺失片段的特征向量之间的分数差来确定缺失片段的影响。
五、研究结果
1.动作质量评估
跳水评估:显示了跳水数据集的平均等级相关性。越高越好。基于姿势的特征提供了最佳性能
花样滑冰评估:计算了花样滑冰数据集的平均等级相关性。越高越好
基于姿势的特征具有竞争力,甚至可以在跳水数据集上获得最佳性能
非专家注释者只能达到19%的等级相关性,这是使用姿势特征的支持向量回归的一半
限制与不足:①姿势估计对于运动员姿势会预估不准确,导致质量分数评估不准确(姿势估计的进步或使用深度传感器进行姿势估计可以改进);②系统只针对一个人进行评估,无法评估多人情景;③没有建模动作中使用的对象,也未考虑物理效果,导致对某些活动的质量分数会聘雇不准确。
2.改进反馈
跳水反馈建议:展示了一些跳水运动员的反馈。红色矢量指示潜水员沿箭头方向移动身体。一般来说,反馈会指示运动员在进入游泳池之前,更多地蜷缩双腿并伸直身体。
花样滑冰反馈建议:展示了一些花样滑雪者的反馈,其中红色矢量是花样滑冰者的指示。
总体来说,反馈是合理的,通常会对表演者的肢体进行修改。
使用留一法(一种交叉验证方法),预测培训视频的反馈。反馈建议为跳水获得53.18%的AP,而AP的机会水平为27%。
定性地分析了通过找到对最终质量分数贡献最大的片段而产生的视频亮点。这个措施对于视频总结是有用的,因为它揭示了在一个长视频中,哪些剪辑对动作质量最重要。
视频亮点:定性地分析了通过找到对最终质量分数贡献最大的片段而产生的视频亮点。这个措施对于视频总结是有用的,因为它揭示了在一个长视频中,哪些剪辑对动作质量最重要。请注意,如上所述,当冲击接近零时,滑冰者通常处于直立的标准位置,当冲击较大时,滑滑者正在执行动作。