视频质量评估
论文题目:Disentangling Aesthetic and Technical Effects in Video Quality Assessment for User Generated Content
论文链接:https://arxiv.org/abs/2211.04894
github地址:https://github.com/QualityAssessment/DOVER
论文内容快速总结
前言
一般来说,用户生成内容(UGC)视频可能会出现美学和技术两方面的质量问题。在传统的视频质量评价中,美学质量和技术质量一直是独立研究的。在美学质量评价中,照片一般是由专业的技术设备拍摄的,因此其质量很大程度上取决于照片中对象的语义,以及拍摄手法是否专业。相比之下,技术质量评价的对象通常使用各种不同的拍摄设备或处理算法,包含如模糊、噪声、伪影、抖动、闪烁等技术方面的失真。对于UGC视频,这两个方面是同时存在的。针对这一问题,本文提出了针对美学视图的美学质量评估器(AQE)和基于技术质量的评估器(TQE),融合用于UGC视频的整体质量评估,得到最终的客观UGC视频质量评价(DOVER)。
论文方法
美学和技术质量问题与不同的因素有关。具体来说,审美感知通常与对象的意义、组织、组成有关,这属于高级语义视觉感知。相比之下,技术质量在很大程度上受到低级视觉失真的影响,如模糊、噪声、压缩伪影、闪烁等。此外,解纠缠表示学习的研究和发展表明,通过输入数据或学习目标的不同因素的归纳偏差,可以实现不同因素的解纠缠。受上述研究的启发,提出了视角分解策略(View Decomposition strategy),以对美学和技术问题施加输入水平的归纳偏差。
首先,我们将原始视频分解为两个特定的视角:美学特定视角(SA),它对美学相关的感知敏感,但对低水平技术失真的敏感性降低;以及技术特定视点(ST),它对技术失真敏感,但破坏了视频的美学结构,因此对美学相关因素不敏感。
基于分解的观点,我们在SA上构建了美学质量评价器(AQE,MA),在ST上构建了技术质量评价器(TQE,MT),分别学习美学质量预测Qpred,A和技术质量预测Qpred,T,记为:
Q
p
r
e
d
,
A
=
M
A
(
S
A
)
Q
p
r
e
d
,
M
=
M
T
(
S
T
)
\begin{matrix}Q_{pred,A}=M_{A} \left ( S_{A} \right ) \\ Q_{pred,M}=M_{T} \left ( S_{T} \right ) \end{matrix}
Qpred,A=MA(SA)Qpred,M=MT(ST)
带有归纳偏差的分解视角确保了单独的评估可以与质量问题的一个方面相关。因此,当我们分别用整体质量分数对两个评价器进行监督时,每个评价者应该能够了解其各自的质量问题对整体质量的影响。因此,我们提出了有限视角偏置监督(LVBS),最小化独立预测和MOS之间的距离(
L
S
u
p
\mathcal{L} _{Sup}
LSup),
Θ
(
M
)
\Theta\left ( M \right )
Θ(M)表示M中的参数:
min
Θ
(
M
A
)
L
S
u
p
(
Q
p
r
e
d
,
A
,
M
O
S
)
min
Θ
(
M
T
)
L
S
u
p
(
Q
p
r
e
d
,
T
,
M
O
S
)
\begin{matrix}\min_{\Theta\left ( M_{A} \right ) } \mathcal{L} _{Sup} \left ( Q_{pred,A},MOS \right ) \\\min_{\Theta\left ( M_{T} \right ) } \mathcal{L} _{Sup} \left ( Q_{pred,T},MOS \right ) \end{matrix}
minΘ(MA)LSup(Qpred,A,MOS)minΘ(MT)LSup(Qpred,T,MOS)
为了保持美学相关的感知并去除技术相关效应,我们阐述了美学特定视角(SA),并进一步引入了额外的正则化目标。
由于审美感知与对象的意义和对象之间的组成有关,我们需要在特定的美学视角中充分保留语义信息(即大多数物体仍然可识别)和上下文信息(即所有物体的原始位置)。根据该原理,我们通过空间降采样和时间稀疏帧采样,保留了原始视频的语义和组成,获得了美学特定的视图。
为了进一步降低AQE中的技术相关感知,我们建议在纹理相关的技术质量信息较少的情况下,将视频过采样到SA↓中。SA↓和SA同时用于训练,以规范AQE来预测质量,而降低技术质量问题的影响。
此外,现有的研究表明,不同尺度之间的特征差异与技术质量有关。因此采用交叉尺度约束(LCR),通过鼓励SA↓和SA的特征相似性,进一步消除技术影响。
在TQE中,我们希望保留技术失真,但忽略视频的美学信息,以便主要关注技术质量问题。因此采用的策略如下。
技术特定的视图。我们引入fragments作为 TQE 的技术特定视图。这些片段是由随机裁剪的原始补丁拼接在一起,以保留技术失真。此外,它丢弃了大部分语义级内容,对剩余内容的位置关系进行打乱,严重破坏了视频中的审美信息。在时间上,我们也采用连续帧采样,以保留时间方向上的技术失真。
一个固定的原始视频可以被随机采样到 和 中,由于随机采样的关系,因此两次采样结果保留了不同的物体。此外, 和 在原始视频中的位置关系也存在差异,进一步破坏了美学相关信息。结合这两个因素,片段的随机性有助于更好地消除TQE中的审美效应,这是一种类似于在SA↓和SA上的多尺度学习的内隐增强。
我们进一步为两个评估器设计了融合策略,以评估 DOVER 对准确整体质量的预测能力。我们提出了线性加权融合来融合来自两个评估者的预测分数,即分数水平的融合。给定AQE和TQE分别为
W
A
W_{A}
WA和
W
T
=
1
−
W
A
W_{T}=1-W_{A}
WT=1−WA的估计权重,通过优化
W
A
W_{A}
WA以最小化分数级融合后的预测与MOS值之间的距离:
min
W
A
L
S
u
p
(
W
A
Q
p
r
e
d
,
A
+
W
T
Q
p
r
e
d
,
T
,
M
O
S
)
\min_{W_{A}} \mathcal{L} _{Sup} \left ( W_{A}Q_{pred,A}+W_{T}Q_{pred,T},MOS \right )
WAminLSup(WAQpred,A+WTQpred,T,MOS)
为了进一步验证融合后AQE和TQE的表示
F
A
F_{A}
FA和
F
T
F_{T}
FT的泛化能力,我们将它们分别转移到具有可学习回归头(
H
A
H_{A}
HA和
H
T
H_{T}
HT)的下游小数据集中,即表示级融合。由于回归头已经有了重新加权分数的能力,我们不需要额外的标量权重,并最小化从
F
A
F_{A}
FA和
F
T
F_{T}
FT回归的分数的直接和与MOS值之间的距离:
min
Θ
f
L
S
u
p
(
H
A
(
F
A
)
+
H
T
(
F
T
)
,
M
O
S
)
\min_{\Theta _{f}} \mathcal{L} _{Sup} \left ( H_{A}\left ( F_{A} \right ) +H_{T}\left ( F_{T} \right ),MOS \right )
ΘfminLSup(HA(FA)+HT(FT),MOS)
个人总结
不同于一般的UGC-VGA方法,该论文将影响主观感受的因素归因为美学质量和技术质量,并在两个方向上进行了特化处理:
-
预处理
- 将视频帧按一定规则伪随机分配给美学部分和技术部分
-
美学方面(需要消除技术方面的影响)
- 视频过采样:消除分辨率不同导致的技术影响
- 空间降采样:消除尺寸不同导致的技术影响
- 时间稀疏帧:平均的采样
-
技术方面
- 图片打碎拼接:破坏了原始图片的语义信息,消除语义信息产生的美学影响
- 采用连续帧采样:保证时序性信息,保留动态模糊等技术性信息