V-MEON & MDIQA

这篇博客介绍了V-MEON,一种基于深度学习的视频质量评估模型,它通过端到端优化融合了特征提取和质量预测。与传统BVQA方法不同,V-MEON使用3D卷积和多任务学习,能预测视频感知质量和编解码器类型。同时,DIQA是针对无参考图像质量评估的框架,通过两阶段训练和手工特征增强提高精度。两者都展示了深度学习在图像和视频质量评估领域的进步。
摘要由CSDN通过智能技术生成

【V-MEON】End-to-End Blind Quality Assessment of Compressed Video Using Deep Neural Networks. 2018 ACM MM

深度学习 视频 质量评价

1. 盲视频质量评估(BVQA)算法传统上采用两阶段的方法来设计:特征提取阶段计算典型的手工制作的空间或时间特征;回归阶段在特征空间中工作,预测视频的感知质量。

与传统的BVQA方法不同,我们提出了一种视频多任务端到端优化神经网络(V-MEON),它将两个阶段合并为一个阶段,特征提取器和回归器共同优化。我们的模型使用了一个多任务DNN框架,它不仅可以估计测试视频的感知质量,还可以提供其编解码器类型的概率预测。这个框架允许我们用两组互补的标签来训练网络,这两组标签都可以以低成本获得。培训过程由两个步骤组成。
在第一步中,使用编解码器分类子任务对早期卷积层进行预训练以提取时空质量相关特征。第二步,用预先训练好的特征抽取器初始化,将两个子任务共同优化。另一个关键的步骤是采用三维卷积层,它可以创建新颖的时空特征,从而显著提高性能。实验结果表明,该模型的性能明显优于现有的BVQA算法方法。

更新数据集
数据集采用两个标签 编解码器 质量分数(由FR-VQA SSIMPlus方法获得)

2. V-MEON的概述如图1所示,其中两个质量相关的子任务通过在早期层共享相同特征提取器的两个子网来实现。

在这里插入图片描述

在这里插入图片描述

GDN是一种广义除法归一化(GDN)联合非线性层。

D是所考虑的编解码器类型总数。然后,使用softmax函数将最后一个完全连接层的未规范化输出转换为概率向量。 质量预测器产生一个分数向量ˆs(k)∈RD,第i个条目表示第i个编解码器类型对应的感知质量分数

选择PLCC损耗而不是广泛使用的l1或l2范数[6,19]的原因。
首先,人类对感知质量的排名比绝对分数更为一致[20]。
第二,PLCC和Spearman秩序相关系数(SRCC)是知觉质量评价中常用的评价标准。
第三,PLCC损失在[-1,1]范围内被归一化,使得训练过程对ξ1和ξ2之间的权重不太敏感。SRCC不用作损失,因为它是不可微的,这是启用训练过程的一个关键特性。

3. 空间特征提取

在所提出的V-MEON模型中,我们在特征提取器中采用3D卷积层直接从原始视频片段中提取时空特征。受文献[10]的启发,我们在时空特征抽取器中探索了两种不同的时间信息融合方法。我们还包括一个单框架结构作为基线。所有结构如图3所示。
在这里插入图片描述

T= 8
基线特征提取器以235×235×1的灰度片为输入,只提取图像级特征。

4. 结果

在这里插入图片描述
在这里插入图片描述

从实验结果来看,我们有几点观察。
首先,在三个数据库中,SSIMplus与MOS具有相当高的相关性,并且总体上比VMAF更健壮,这证明了我们使用SSIMplus分数进行训练的方法是正确的。
其次,V-MEON模型的性能一直优于两个竞争的BVQA模型。我们认为性能的提高来自于数据驱动的特征表示,以及联合优化的特征抽取器和回归器。
第三,在三种V-MEON-SF模型中,V-MEON-SF的性能通常优于V-MEON-EF,而V-MEON-SF在VQA任务中起着关键作用,而V-MEON-SF在这些特征的提取方面做得更好。
第四,在大多数情况下,V-MEON-SF的性能优于FR-VQA基线模型PSNR,表明慢融合结构提取的时空特征是有效的。
第五,V-MEON在ECVQ上表现最差,在EVVQ上表现一般,在CSIQVQA数据库上表现最好。这种不一致可能是由于三个数据库中测试视频的分辨率不同造成的。具体来说,随着训练集和测试集空间分辨率差异的增大,V-MEON的性能逐渐下降。

【DIQA】J. Kim, A. Nguyen, and S. Lee, “Deep cnn-based blind image quality predictor,” IEEE Trans. Neural Netw. Learn. Syst., vol. 30, no. 1, pp. 11–24, Jan. 2019.

NR image 生成中间图 添加手工特征

由于缺乏训练数据库等关键性障碍,将深层CNN应用于无参考图像质量评估(NR-IQA)仍然是一项具有挑战性的任务。本文提出了一个基于CNN的NR-IQA框架,可以有效地解决这一问题。该方法将NR-IQA训练分为两个阶段:1)客观失真部分和2)人类视觉系统相关部分。
在第一阶段,CNN学习预测客观误差图,然后在第二阶段学习预测主观得分。为了弥补均匀区域客观误差图预测的不精确性,我们还提出了一种可靠性图。另外还采用了两个简单的手工制作特征,以进一步提高精度。此外,我们提出了一种视觉化错误图的方法来分析深层CNN模型所学到的东西。在实验中,DIQA在各种数据库上获得了最先进的精确度。

深层神经网络的性能很大程度上取决于训练数据的数量。然而,与用于深度学习的典型计算机视觉数据集相比,目前可用的IQA数据库要小得多。例如,LIVE IQA数据库[5]包含每种失真类型的174-233张图像,而用于图像识别的广泛使用的数据集包含超过120万张标签数据[6]。此外,获得大规模可靠的人类主观标签是非常困难的。与分类标签不同的是,建立智商数据库需要一个复杂而耗时的心理测量实验。
为了扩展训练数据集,可以使用数据扩充技术,如旋转、裁剪和水平反射。不幸的是,图像的任何变换都会影响感知质量分数。
在这里插入图片描述

图片预处理,

Ir和Id表示参考图片和失真图片,normalized后的用Ir和Id表示。
I^=I−Ilow
Ilow经下面按下面处理获得:
(1)灰度化,高斯模糊  
(2)Downscale 1/4  
(3)Upscale到原来的尺度

为了解决这个问题,我们提出了一种新的NR-IQA框架,称为深盲图像质量评估器(DIQA)。DIQA分两个阶段进行训练,如图1所示。在第一阶段,利用目标误差图作为代理训练目标,扩展数据集标签。现有的数据库为每个失真图像提供主观评分。换句话说,一个训练数据项包括从三维张量(宽度、高度和通道)到标量值的映射。在给定失真图像和标量主观评分S的情况下,模型θ的最佳参数应通过
在这里插入图片描述

, f(·)是一个预测函数。相比之下,DIQA在训练过程中利用参考图像,生成一个称为目标误差图的二维中间目标。请注意,只要数据库提供参考图像,在训练过程中就可以访问参考图像,通过比较参考图像和失真图像,可以很容易地得到地面真实客观误差图。通过将训练目标扩展到二维误差映射e,
在这里插入图片描述

,w h e r e(i,j)是一个像素索引。换言之,通过提供更多的约束,它可以产生相同的效果,即增加训练对的数量,直到误差映射的维数。一旦使用足够的训练数据集对深层神经网络进行训练,则对模型进行微调以预测主观得分。

然而,在目标误差图预测阶段还存在另一个问题。当图像受到严重失真而丢失其高频细节时,其误差映射会获得更多的高频分量。同时失真图像没有高频细节。因此,在没有参考图像的情况下,很难从失真图像中预测出准确的误差图,尤其是在均匀区域。为了避免这个问题,我们建议通过测量纹理强度来获得可靠性图,以补偿误差图的不精确性

在这里插入图片描述

DIQA的结构如图2所示。对于误差映射预测部分,该模型仅由卷积层组成,每次卷积前在边界上填充零点,因此输出不丢失相对像素位置信息。除最后一层外,每层都有一个3×3滤波器和一个整流线性单元(ReLU)[25]。我们将Conv8的输出称为特征图(在图2中用黄色填充),它被重新用于第二阶段的训练。在第一个训练阶段的最后一层,使用1×1滤波器将特征映射简化为一个单通道的目标误差图。如果将预测的误差图直接输入到第二阶段的模块中,由于误差图中只有一个通道,会阻碍特征的丰富表达。为了避免这个问题,我们在Conv9中使用了一个简单的信道线性组合,这样我们就可以生成一个与地面真值误差图密切相关的有意义的特征图,同时有多个通道来更好地表示。Conv9的输出大小是原始输入图像的1/4倍。相应地,地面真实客观误差图缩小了1/4。对于下采样操作,使用步长为2的卷积。
在第二个训练阶段,提取的特征映射被输入到全局平均池层,然后是两个完全连接的层。我们还使用了两个手工制作的功能,手工构建的特征与FC1之前的集合特征相连接,然后回归到主观得分上。为了方便起见,我们用f(·)表示从Conv1到Conv8的过程,用g(·)表示Conv9的操作,用h(·)表示包括FC1和FC2的过程。

实验结果

消融实验和 performance

在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值