A Blind Stereoscopic Image Quality Evaluator With Segmented Stacked Autoencoders

摘要

该论文模拟了人类视觉感知的全过程,从人眼到额叶,特别是针对视网膜神经细胞(RGCs)和外侧膝状体核(LGNs)中的边缘和颜色的信号处理。除此之外为了模拟视觉皮层的复杂的和深度的结构,采用了分段堆放自编码器(S-SAE),这在之前的3DIQA中是没有应用过的。S-SAE的应用弥补了基于深度学习的IQA训练需要十分长的训练时间的问题。

介绍

人们都是用双眼看世界的,并且视网膜上的图像略有不同。两个视角通过RGCs压缩保留了边缘信息,同时颜色信息也通过RGCs传递。这些信息之后被传递给LGNs,之后在初级视觉皮层进行融合,每一部分的视觉皮层看似都有各自的功能,但是无法将它们分离出来,经过复杂的处理过程后传递给额叶,得出预测的质量分数。
该算法的贡献可分为以下部分:

  • 整个路线被分为两个字路线,分别处理边缘信号和颜色信号,之后两部分会各自产生一个分数,即边缘分数和颜色分数。具体如下:左右视图的轮廓信息被提取来模拟RGCs的边缘提取,这部分将被用于计算中间过程的合成图,如和、差、独眼视图。颜色信息不是发生在IQA的全过程中的,这里对发生在LGNs中的对手编码进行了建模。
  • S-SAE被用来模拟视觉皮层中的深层和复杂的结构,其不仅解决了SAE的训练花费大量时间的缺点而且有高的准确率。三个S-SAE被用于边缘信息中,一个SAE被用于颜色信息中,最终被用于SVR中得出各自的质量分数。
  • 两个动态权重系统和一个静态权重系统被用于将局部感知分数组合得出最终的分数。

背景

视网膜神经细胞和外侧膝状体核
视觉系统具有将复杂众多的视觉信息压缩的功能,这部分是在RGCs中实现的。它们有单细胞(P)、近细胞(K)和巨细胞(M)。
P和P携带颜色信息,M携带运动和边缘信息。总的来说只有边缘和变化被提取出来并通过LGNs传递到V1。
除了边缘信息,RGCs也参与了颜色信息的提取,和LGN的P、K细胞共同作用,实现了对抗编码。这些锥细胞可分为三类:L- M-和S-,分别对长波长(红光)、中波长(绿光)和短波长(蓝光)。这里存在三个编码通道红绿、蓝黄和明暗,P是对红绿方面的颜色敏感,K是对蓝黄的颜色敏感。因此计算这三个部分的成分,并最终传递给V1。
实验发现在V1区域不仅存在sum、cyclopean,还存在diff。
S-SAE
因为人脑的视觉处理过程是比较复杂的,从V1区到IT区域,这里使用S-SAE来模拟更深层和复杂的特征提取过程,在该过程提取后的特征输入到SVR中进行训练得出感知分数。

算法实施

生理建模
首先视觉神经细胞接收到外界的刺激R,G,B成分,之后这些视觉刺激被传递到RGCs,并且边缘信息由RGCs提取,接下来R G B图像和边缘信息被传入LGNs,并且对手编码发生在这里,之后RG、BY、和Lum信号以及边缘信息以P、K、M流的形式传输到视觉皮层V1区域。在该区域左右视图合成为S、D和C图像。到目前为止产生了6个不同类型的映射图,紧接着边缘和颜色特征提取将会在之后发生,最后提取的特征会经过30多个视觉处理区域,从而生成更加复杂和抽象的特征,这些特征最终会传输到额叶,并获得感知质量。
在这里插入图片描述
算法建模
总体分为两个子部分,边缘质量索引和颜色质量索引。
边缘提取
使用LoG滤波器模拟RGCs的特征提取过程,采取三个不同的参数进行提取,n为滤波器的大小,另一个参数为标准差在这里插入图片描述
在这里插入图片描述
高斯低通滤波器
在这里插入图片描述
这模拟了在V1区域中不同的边缘检测算子,结果三个左三个右LoG映射图被提取出来,之后这三种边缘映射图被融合成S D C图,每个图会有三种,融合过程如下:
在这里插入图片描述
在这里插入图片描述
之后分别对融合图进行特征提取,这些特征进一步会经过S-SAE训练以得到更加深层和抽象的特征,最终所得到的特征输入SVR得到局部质量分数,这些质量分数之后经过池化操作得到边缘特征的质量分数。
颜色图
使用以下公式模拟对手编码
在这里插入图片描述
在这里插入图片描述
之后对这些映射图进行特征提取,将提取到的特征输入到SAE网络中以得到更加深层和抽象的特征,最后输入到SVR中得到颜色质量分数,结合颜色质量分数和边缘质量分数可以得到最终的质量分数。
特征提取
对边缘图融合得到的图进行MSCN变换,观察到其直方图的峰值和方差随着DMOS变化,除了白噪声失真。当DMOS变大时其直方图的峰值和方差会变小,乘积对的变化也和以上相似。对MSCN图进行广义高斯分布和非对称广义高斯分布拟合分别得到2个、16个拟合参数,除此之外计算MSCN图的幅值、方差和熵特征,最后再加上对比度特征,最终每张图得到22个特征值,三张图产生66个特征,这些特征之后会用于S-SAE训练来得到边缘信息特征。
对于颜色映射图,使用AGGD拟合,得到形状、左方差和右方差三个拟合参数,同时映射图的峰值和偏离度也作为特征进行了提取,5x3x2=30,最终得到30个特征,使用这些特征进行之后的SAE训练来得到颜色信号处理。
池化系统
研究发现弱相关的两眼图像对的和差通道的权重相似。但是,一般情况下,这些图像具有很强的相关性,并且给差值通道分配了较大的权重。因此这里采用了动态权重系统:
在这里插入图片描述
在这里插入图片描述
这里的L和R不是图像本身,而是之前提取的22个特征值,C1=0.6 , C2=5以此来达到当图像弱相关时差通道仍然能得到更大的权重,结果:在这里插入图片描述,同样池化Qc质量分数时,当图像弱相关时,应赋予Qc更大的权重,当处于弱相关时赋予两者相似的权重,其权重为
在这里插入图片描述
其中C3=0.55,C4=0.8,最终按照加权和得到边缘感知分数,由于边缘特征质量分数比颜色特征质量分数更加重要,因此前者所占比重为0.7,后者为0.3,且采用静态权重的方式,最终得到全局质量分数。
其整体流程图如下
在这里插入图片描述
个人感想
总的来说这篇文章使用的神经网络部分还是比较少的,大部分的特征提取还是传统的方法,不过还是有以下几点可供参考:

  • 使用了多个融合图,使用了颜色信息特征
  • 特征提取部分还是使用了MSCN,再得到相关统计信息
  • 使用S-SAE进行深层次的特征提取
  • 分别计算局部质量分数,再将质量分数进行加权融合得到最终的分数
    个人感觉在特征提取时先进行边缘特征提取再进行深层的特征提取有些限制了特征提取的范围,之后的提取相当于都是在边缘信息之上提取的,有了边缘信息的限制。在特征提取时不妨不指定提取的何种特征,而是直接交给神经网络进行特征提取,提取所需要的特征,可采用类似于DenseNet的连接方式来提取特征,这样及考虑到了深层特征也考虑到了浅层特征,也许对双眼视觉的特征提取有所帮助。然后是图像融合时,这里采用的是加减cyc方法,不妨尝试一下采用一个学习到的权重网络进行图像的融合,这样也许能学习到更适合融合的权重和方法。再之后在S-SAE部分,这种方法确实能够减少训练时间,但是这有些限制了特征之间的交流和组合,这里不妨尝试以下ShuffleMoblieNet的组合方法,随机打乱分配以下特征网络的连接方式,后面的加权局部质量的方法值得借鉴,通过多个局部质量分数的融合也许能够得到更更好的质量分数。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值