智能化图像/视频效果质量评测方法（三）

huan20170808

已于 2024-04-11 17:15:54 修改

阅读量754

点赞数 7

分类专栏：图像视频文章标签：音视频计算机视觉 python 模块测试人工智能可用性测试

于 2024-03-25 17:25:46 首次发布

本文链接：https://blog.csdn.net/huan20170808/article/details/137020262

版权

图像视频专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文探讨了基于机器学习（如BRISQUE和VMAF）和深度学习（如DB-CNN和DeepIQA）的客观评价方法，聚焦于图像和视频的质量评估，通过特征提取和模型拟合来模拟人眼感知。文章提及了这些模型在图像和视频测评中的应用，以及它们与传统指标如SSIM和PSNR的差异。然而，文中也指出这些方法存在算法复杂度高和缺乏业务适用公开数据集的问题。

摘要由CSDN通过智能技术生成

1、基于机器学习的客观指标评价方法

基于机器学习的客观评价方法的核心原理：

采用“特征提取+回归/拟合”的框架，首先提取图像的特征，然后采用机器学习的方法建立特征与质量分数之间的映射模型；

1）图像测评方法：

以BRISQUE为例：

BRISQUE（Blind/Referenceless Image Spatial Quality Evaluator）是Mittal等提出的另一种采用人工特征进行NR-IQA的模型。其基本思路是从图像中提取MSCN系数，提取MSCN系数时考虑了相邻像素之间的关联信息，选取了4个方向分别计算MSCN系数。然后将MSCN系数拟合成非对称广义高斯分布（Asymmetric Generalized Gaussian Distribution，AGGD），利用失真对分布造成的参数影响来提取高斯分布特征。另外，还将空间相邻差值、均值减去以及对比度归一化等作为特征参数。最后使用SVR作为拟合工具，进行特征到分数的回归计算，从而得到图像质量的评估结果。

特征值：MSCN指不同方向上的图片的纹理、细节信息。

2）视频测评方法：

以VMAF为例：

特征提取：

视觉信息保真度（VIF：visual quality fidelity）、细节损失指标（DLM：detail loss measure）、时域运动指标/平均相关位置像素差（TI：temporal information）。其中VIF和DLM是空间域的，一帧画面之内的特征。TI 是时间域的，多帧画面之间相关性的特征。这些特性之间融合计算总分的过程使用了训练好的SVM来预测。

视觉信息保真度（VIF：visual quality fidelity）

RGB模型转换成HVS模型，确认丢失信息。它是一种基于自然场景统计模型NSS、图像失真、和人类视觉失真建模的新判断；该指标认为人眼看到的图像是图像通过HVS过滤出来的信息，HVS本身就是一个失真通道，即人类视觉失真通道，而失真图像只是比原始图像在经过HVS之前又多了一个图像失真通道，故可以使用信息论的知识将人眼提取的信息与从原始图像提取的信息进行比较，得出最终评测结果。

备注：视觉信息保真度指标来源于论文《image information and visual quality》。

细节损失指标（DLM：detail loss measure）

细节损失是指影响内容可视性的有用视觉信息的损失，即在测试图像中出现的分散观众对有用内容的注意力的信息，从而导致不好的观看体验。

备注：DLM：细节损失指标来源于论文《Image Quality Assessment by Separately Evaluating Detail Losses and Additive Impairments》。

时域运动指标/平均相关位置像素差（TI：temporal information）

时域运动指标/平均相关位置像素差是一种衡量相邻帧之间时域差分的算法；计算像素亮度分量的均值作差即可得到该值。

demo数据：

测试数据：

视频截图	最终得分

比起SSIM、PSNR等客观评价指标，基于机器学习的评价模型更符合人眼的真实观看感受。

2、基于深度学习的客观指标评价方法

1）目前市面上的相关方法：

2）核心原理：

1）图像评测模型

1、以DB-CNN为例：

Ma等提出了一种基于双线性池化的CNN结构用于NR-IQA。该网络由两个分支网络和一个双线性池化模块组成。其中一个分支网络采用轻型网络结构，使用滑铁卢数据集和Pascal VOC数据集组成的训练集进行训练。利用数据集中的高质量图像合成不同类型、不同程度的失真图像，用分类的方式对分支网络进行训练。另一个分支网络采用VGG16，该网络在ImageNet数据集上进行了预训练，用于提升整个网络对于自然失真的感知能力。最后，利用双线性池化模块融合两个网络的全连接层特征，作为图像的深度特征，进而再拟合深度特征与质量得分之间的映射关系。这种方法在合成失真和自然失真IQA数据集上都获得了最高的性能，为目前的NR-IQA研究工作带来了新思路。

2、DeepIQA模型：

Bosse等提出的DeepIQA也是基于端到端框架的IQA模型。该模型采用扩展过的VGG16作为骨干网络，相比于其他IQA模型具有更深的层数，在多个数据集中也取得了较好的表现。DeepIQA的创新点是将图像随机分割成patch块进行IQA数据集扩充。并且在训练阶段，每个patch块都返回一个权重，最后将每个patch块及其对应的权重进行合并，用于预测图像质量得分。需要强调的是，DeepIQA将全参考IQA任务和NR-IQA任务融合在一个网络中实现。使用孪生网络进行全参考IQA的训练，使用孪生网络的一个分支稍加改动就可以用于NR-IQA。DeepIQA在人工模拟失真数据集和自然失真数据集中都取得了很好的效果。

2）视频评测模型：

以DVQA为例：

C3DVQA所使用的网络结构如下图所示。其输入为损伤视频和残差视频。网络包含两层二维卷积来逐帧提取空域特征。级联后使用四层三维卷积层来学习时空联合特征。三维卷积输出描述了视频的时空掩盖效应，我们使用它来模拟人眼对视频残差的感知情况：掩盖效应弱的地方，残差更容易被感知；掩盖效应强的地方，复杂的背景更能掩盖画面失真。

网络最后是池化层和全连接层。池化层的输入为残差帧经掩盖效应处理后的结果，它代表了人眼可感知残差。全连接层学习整体感知质量和目标质量分数区间的非线性回归关系。

以公开的数据库做测试结果：

（备注：plcc 线性相关性，srocc算法性能）

现有的缺陷：

1）算法复杂度高、计算消耗GPU大；

2）尚无符合业务场景的公开数据集；

huan20170808

关注

7
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
智能化图像/视频效果质量评测方法（三）

最后，利用双线性池化模块融合两个网络的全连接层特征，作为图像的深度特征，进而再拟合深度特征与质量得分之间的映射关系。该指标认为人眼看到的图像是图像通过HVS过滤出来的信息，HVS本身就是一个失真通道，即人类视觉失真通道，而失真图像只是比原始图像在经过HVS之前又多了一个图像失真通道，故可以使用信息论的知识将人眼提取的信息与从原始图像提取的信息进行比较，得出最终评测结果。细节损失是指影响内容可视性的有用视觉信息的损失，即在测试图像中出现的分散观众对有用内容的注意力的信息，从而导致不好的观看体验。
复制链接

扫一扫

专栏目录