1 引言
1.1 研究背景及意义
随着计算机和移动互联网技术的快速发展, 多屏互动[、视频游戏[、远程教育等多客户端通信系统也得到了飞速的发展.在这类系统中, 各类终端之间可以相互通信, 以实现屏幕内容图像(终端设备绘制并显示在屏幕上的视觉内容, 包括网页、邮件、地图、动画、文档和图像等)的分发和处理.与传统自然图像相比, 屏幕内容图像包含的多媒体形式更多, 蕴含着较多的信息, 具有非常大的应用价值.例如, 消费者可以在好友圈中直播购物体验, 并直接分享商品的图片和文字介绍信息; 汽车追尾现场, 事主可直接分享手机摄像头内容给车险理赔员, 远程完成理赔的认定和文件签署; 远程教育中, 教师可实时批阅学生的随堂练习并完成答疑等.屏幕内容图像一般同时包含图像和文本[.传统的自然图像和屏幕内容图像的例子如
图 1
Fig. 1
Fig. 1 Examples of traditional natural images and screen content images
图 1 传统自然图像和屏幕内容图像的示例
在实时多客户端通信系统中, 屏幕内容图像的分发和处理通常涉及到获取、压缩[和传输等环节.然而, 由于系统资源有限, 各类处理环节都可能在屏幕内容图像中引入失真, 影响用户体验.例如, 在图像获取过程中, 由于视频采集设备的缺陷, 屏幕内容图像包含噪声; 由于硬件设备资源的约束, 屏幕内容图像的分辨率有限.在带宽约束下, 屏幕内容图像的压缩处理会引入压缩失真, 降低图像的视觉质量.在传输过程中, 比特位错误会引起图像内容的随机丢失, 引入难以预测的失真.以上失真会影响屏幕内容图像的画质, 进而影响到用户体验.当前图像质量评价的研究主要针对传统自然图像, 为了能够反映系统中各环节对最终用户体验的影响, 进而实现系统优化的目的, 需要研究和设计针对屏幕内容图像的质量评价方法.
1.2 图像质量评价方法研究现状
图像质量评价方法分为主观评价方法和客观评价方法[55-.主观评价方法由观察者来对图像评分, 一般采用平均主观得分(mean opinion score, 简称MOS)或平均主观得分差异(differential mean opinion score, 简称DMOS)作为失真图像的质量指标.观察者是图像视觉信息的最终接收者, 因此主观评价方法是最准确的方法.但是, 主观评价方法需要耗费大量人力、物力以及时间代价并且不能嵌入到实时系统, 因此, 它主要在建立标准数据库时使用.客观评价方法是由相应的计算模型计算得到图像的质量指标.客观评价方法在计算机视觉和图像处理等领域中扮演着重要角色.一些图像处理和传输系统的参数需要根据图像的质量来进行调节, 可以将客观评价方法嵌入到系统之中实时地优化系统的参数.图像检索系统可以根据图像的质量来排列检索的结果.图像处理算法的性能可以根据图像质量来评估, 因此客观评价方法可以作为图像处理算法的基准.客观评价方法也可以动态监测和调节图像处理系统输出图像的质量.
客观评价方法根据所需无失真参考图像信息量的多少进一步可以分为全参考(full reference, 简称FR)方法、部分参考(reduced reference, 简称RR)方法和无参考(no reference, 简称NR)方法.全参考方法在计算失真图像的质量指标时需要获取失真图像的整幅无失真参考图像的全部信息, 通过对比计算二者的差异得到失真图像的质量指标.部分参考方法在计算失真图像的质量指标时不需要整幅无失真参考图像的全部信息, 仅需从无失真参考图像中提取的某些特征信息即可.无参考方法不需要无失真参考图像的任何信息即可计算失真图像的质量指标.由于没有无失真参考图像, 无参考方法是这3类方法中最困难的方法.
当前图像质量评价研究的重点是传统自然图像, 针对屏幕内容图像质量评价的研究较少.传统自然图像质量评价的全参考方法经过几十年的发展已具有坚实的理论基础和许多成熟的评价算法.其中, 思想最简单且应用最广泛的是均方误差算法(MSE)和峰值信噪比算法(PSNR), 这两种算法直接将失真图像对应于无失真参考图像的像素差异作为失真图像的质量指标.虽然这两种方法计算简便、快捷, 但是它们计算得到的结果与人的视觉感知相关性较低.Chandler等人通过对人类视觉系统的认知并建模提出了VSNR[算法.Wang等人提出的SSIM[算法将计算得到的无失真参考图像和失真图像的结构相似度作为失真图像的质量指标.在文献[[方法.
部分参考方法多用于通信系统中.在发送端提取无失真参考图像的部分信息, 比如特征等, 然后将这部分信息通过辅助信道传送到接收端或者先将这部分数据以水印的形式嵌入到发送端的无失真参考图像之后, 再与无失真参考图像一起传送到接收端以节省带宽.对于在接收端收到的失真图像, 提取同样的信息.最后将在发送端提取的无失真参考图像的信息和接收端提取的失真图像的信息结合起来计算失真图像的质量指标.
传统自然图像质量评价无参考方法可以分为针对如模糊、噪声和块状效应等特定失真类型的方法及通用的方法.针对特定失真类型利用到了特定失真的某种特性, 它们因此也只能用于计算受到特定失真影响的失真图像的质量指标.然而, 在现实应用情景中, 失真绝不会仅局限于某种特定的失真, 因此, 这类无参考方法的应用范围有限.但通用的方法可以应用于多种失真类型, 并且进行简单的扩充之后, 通用的方法就具有针对新的失真类型的能力.通用的方法主要分为基于自然场景统计[的方法和基于学习或训练[的方法.
理论研究发现自然场景具有某些统计特性, 当失真存在时会改变这些统计特性, 并且不同的失真以及不同的失真程度对统计特性的改变也不同.基于自然场景统计的方法将失真图像偏离自然场景统计特性程度的多少作为失真图像的质量指标.Moorthy等人提出的DIIVINE[方法首先对图像进行小波变换, 然后对变换得到的系数进行统计分布的拟合, 并将得到的系数作为特征.Liu等人提出的SSEQ[方法首先将图像划分为许多小块, 然后分别在这些小块上计算特征, 最后将在所有小块上计算得到的特征聚集起来进行池化得到统计特征.这类方法在计算得到特征后再利用回归方法建立起特征与失真图像质量分数之间的关系.
基于学习或训练的方法与基于自然场景统计的方法类似, 但其直接提取与图像质量相关的特征, 而不是自然场景统计特征, 最后利用支持向量机或神经网络等机器学习技术建立起图像特征和图像质量指标之间的关系.Li等人[首先提取与图像质量相关的相位一致性、熵和梯度等特征, 然后利用广义回归神经网络建立起图像特征和图像质量指标之间的关系.Ye等人首先利用提取的40维的Gabor特征向量集构建码本, 然后将码字直方图作为图像特征建立起与图像质量指标之间的关系, 基于此而提出了CODEBOOK[方法.Gao[等人受到机器学习排序思想的启发, 先从可明显区分的图像对入手提取差特征向量, 然后利用多核学习算法建立起差特征向量和图像质量指标之间的关系, 该方法的明显优点是不需要图像的主观得分(MOS或DMOS).
目前, 屏幕内容图像质量评价的研究还处于起步阶段, Yang[等人构建了第一个大规模屏幕内容图像质量评价数据库SIQAD.基于此数据库, 他们得出屏幕内容图像的文本区域和图像区域带给人的视觉感知特性是不同的这一结论.基于此结论, 他们提出了分开考虑文本区域和图像区域, 针对屏幕内容图像的全参考方法SPQA. Ni等人[基于图像梯度的局部信息提取梯度方向特征, 提出了针对屏幕内容图像的GSS全参考方法.Gu[等人利用简单的卷积操作凸显失真引起的结构失真以及失真更容易引起的显著性区域这一结论而提出了SQMS全参考方法.Wang等人[根据屏幕内容图像不同于自然图像的视觉感知特性提出了RRS部分参考方法.
综上可以得出结论:目前针对屏幕内容图像的研究还较少, 并且提出的方法大部分都是全参考方法.在许多应用情景中很难获取无失真参考图像, 因此, 屏幕内容图像的无参考评价方法研究就变得非常有意义.
本文第2节介绍IML-SCIQD数据库的构建过程, 主要包括参考图像和失真类型的选取、主观评价方法的确认、具体实验的进行以及最后主观数据的处理.第3节介绍本文提出的针对屏幕内容图像的无参考算法的相关细节.具体有图像区域和文本区域的划分、不同区域的统计特征以及提取的区域统计特征等细节.第4节介绍进行算法评估时所用到的数据库以及最后的评估结果.最后对本文工作进行总结并提出未来的展望.
2 IML-SCIQD数据库的构建
2.1 标准图像质量评价数据库的重要性及概况
标准图像质量评价数据库的建立是客观图像质量评价算法研究的基础, 新提出的算法需要在数据库上进行性能评估, 不同的算法也需要在数据库上进行性能优劣比较.目前, 图像质量评价的研究主要还是针对传统自然图像, 针对屏幕内容图像的研究还处在起步阶段.因此, 目前已公开发表的图像质量评价数据库大部分都是针对传统自然图像的, 例如LIVE数据库[、CSIQ数据库[、TID 2008数据库[、TID 2013数据库[.SIQAD数据库是目前唯一一个公开发表的大规模屏幕内容图像数据库[.
LIVE数据库包含29幅参考图像和经过5种失真处理的779幅失真图像, 数据库中失真图像的主观分数为DMOS.TID 2008数据库包含25幅参考图像和经过17种失真类型处理的1 700幅失真图像.数据库中失真图像的主观分数为MOS.TID 2013数据库是TID 2008数据库的扩展, 它包含25幅参考图像和经过24种失真类型处理的3 000幅失真图像.数据库中失真图像的主观分数为MOS.CSIQ数据库包含30幅参考图像和经过6种失真类型处理的866幅失真图像.数据库中失真图像的主观分数为DMOS.SIQAD数据库包含20幅参考图像和经过7种失真类型处理的980幅失真图像.数据库中失真图像的主观评分为DMOS.SIQAD数据库中参考图像的来源主要有新闻网页、电子杂志、幻灯片和PDF文件等.在真实的应用环境中, 可能出现各种各样的情况, 单一数据库难以覆盖.因此, 屏幕内容图像质量评价数据库的构建就显得非常有必要.
图像质量评价数据库的构建通常涉及到参考图像的选取, 失真类型的确定和失真图像的生成, 主观评价方法的选取、主观实验平台的搭建以及招募主观实验人员进行主观实验, 最后将得到的初始主观数据进行处理得到失真图像的主观分数.
2.2 IML-SCIQD数据库概况
IML-SCIQD数据库包含25幅参考图像以及25幅参考图像经过10种失真每种失真5个失真等级处理的1250=25×10×5幅失真图像.这25幅参考图像都是通过屏幕截图得到的, 它们主要来自于社交网站、购物网站、生活服务网站、电子地图、电子杂志、PDF文件、幻灯片、电影、动画和新闻网页等, 因此, 参考图像的视觉内容具有一定的代表性.25幅参考图像视觉内容布局和分辨率也不尽相同.IML-SCIQD数据库中的10种失真类型是:(1) JPEG压缩(JPEG); (2) JPEG 2000压缩(JP2K); (3)高斯模糊(GB); (4)运动模糊(MB); (5)高斯白噪声(GWN); (6)椒盐噪声(SPN); (7)乘性噪声(MN); (8)对比度变化(CC); (9) JPEG 2000比特流经过快速衰落瑞丽信道时产生的比特位传输错误(FF); (10)屏幕内容压缩(SCC).
10种失真类型既包含了传统自然图像相关应用中经常遇到的失真, 也包含了屏幕内容图像所特有的失真.第1种~第9种失真经常出现在与自然图像相关的应用中, 当然也会出现在屏幕内容图像中.例如, 图像获取、图像压缩、图像传输等.这9种失真也经常被其他数据库选作失真类型.最后一种失真是为提高屏幕内容压缩效率而特别针对屏幕内容而设计的压缩算法.
2.3 主观实验
选择合适的主观实验方法是获得稳定主观实验结果的重要基础.国际电信联盟(ITU)[推荐了几种不同的主观评价方法, 不同的方法适用于不同的情景.这些方法可以大致分为单刺激方法和双刺激方法.对于单刺激方法, 在进行主观实验时, 每次屏幕上仅出现1幅图像供实验者评分.但是对于双刺激方法, 在进行主观实验时, 每次屏幕上会出现两幅图像, 它们是同一幅图像的不同失真版本, 实验者仅需判断这两幅图像是否有视觉感知差异或哪一幅图像的视觉感知更好或更差即可.但当需要评估的图像数量较大时, 需要对比的图像对的数量将难以接受.为了操作方便, 本文选用单刺激连续质量评估方法(SSCQE)作为主观实验方法.每次只有1幅图像显示在屏幕上, 主观实验者需要根据他自己的视觉感知, 在一个连续的区间内对图像进行评分.
WEST[开源软件平台为从多个地点上的多个设备上收集主观数据提供了解决方案, 其优点是多个主观实验者可以同时参加主观测试, 只要他们参加测试的设备满足实验条件且连接在实验的本地服务器上即可.它原本是为视频数据设计的, 本文对其进行简单修改之后作为本次主观实验的软件平台.主观实验的一大缺点是耗时, 随着WEST软件平台的应用将大大缩短主观实验的时间.在本文的主观实验中, 所有参考图像也被包含在主观测试之中, 因此整个主观实验过程一共有1 275幅图像需要进行评分.