DeepQA
DeepQA的作者是延世大学Kim Jongyoo,收录于CVPR 2017
论文概要
Tips: 前几天听了人大赵鑫老师和中科院兰艳艳老师讲解怎么写论文,赵老师对引文的六句扩充法以及兰老师的3W2H方法还是收益很深。本质上感觉两种方法应该是一样的,我在看论文的过程中就使用了六句扩展法。PPT截图来自于雷锋网,如有转载请注明出处。
按照六句扩充法总结了文章大体内容:
(1)图像质量评估是预测感知质量,在过程评估、图像和视频编码、监控等图像处理领域有着广泛应用。人体是图像和视频的最终接收者,因此在图像质量评估的度量应该考虑人体视觉系统,尤其是视觉敏感度。
(2)传统的全参考图像质量评估(Full-Reference Image Quality Assessment, FR-IQA)方法根据心理视觉科学(Psychological Vision Science)对人体视觉系统进行建模。这些方法计算复杂度高,并且建立的模型需要符合事先定义的条件,泛化性能一般。
(3)针对上述问题,随着深度学习及CNN技术的发展,Kim等提出了基于CNN结构的图像质量评估算法(DeepQA),该算法可以产生视觉敏感度分布权重图,每个像素的权重值代表在视觉系统中的重要程度。
(4)文中提出的算法不需要使用任何心理视觉科学的先验知识,仅依赖于数据,包括扭曲的图像,客观评价错误图及ground-truth主观评价图。
(5)实验结果表明DeepQA预测的视觉敏感度分布与人体视觉系统有相似的结果。并且在五个数据集上均表现出了SOTA水平。
网络结构与算法流程
DeepQA网络结构如图3所示,算法具体流程如下:
- 扭曲图像和参考图像的归一化结果按照公式
e = l o g ( 1 / ( ( I ^ r − I ^ d ) 2 + ε / 25 5 2 ) ) l o g ( 25 5 2 / ε ) e=\frac{log\left(1/\left(\left(\widehat{I}_{r}-\widehat{I}_{d}\right)^2+\varepsilon /255^2\right)\right)}{log\left(255^2/\varepsilon\right)} e=log(2552/ε)log(1/((I r−I d)2+ε/2552))
可以得出客观评价错误图(objective error map)。 - 将扭曲图像和客观评价错误图同时输入网络计算出预测的视觉敏感度图(sensitivity map).
- 将预测的敏感度图和下采样1/4的客观评价错误图进行点乘求和计算得到感知错误图(perceptual error map)和对应的分数 μ P \mu_{P} μP。
- μ P \mu_{P} μP经过两个全连接层得到最终的预测分数,该分数与ground-truth主观分数的距离为网络模型的损失函数。
- 模型引入总变差(total variation, TV)正则化项,用于惩罚图像中的高频分量。
把Summary转成英文的时候画了这样的Algorithm表格,可以作为参考:
实验结果
在五个数据集上均达到了SOTA的水平,具体结果如下表所示。
摘要重写与复盘
兰老师和赵老师都说复盘和对比很重要,一个最简单的方法提升写作是把写好的文章给老师看,让老师改,我已经毕业了,所以没有这方面的资源,还在学校的同学一定要好好把握每次老师给改的机会(这句话也是两位老师的原话)。赵老师还说,比较廉价的学习方法就是重写摘要,然后比对,达到复盘的效果。
这次是我第一次重写摘要,问题还是挺多的,也希望各位大佬积极指正。我把重写的和原文贴在下面了,左边是我重写的版本,右边是原文:
复盘:
- 背景介绍部分
(1) 连词用的比较平淡,我用的是so,原文用的是since
(2) IQA should consider …太中文化,原文用的是image quality metrics should be designed from …
(3) FR-IQA methods model HVS 这句也太中文,原文写的是 a number of FR-IQA methods adopted various vomputational models …
(4) However开头的一句在摘要里还是太细节化了。在原文里没有介绍conventional方法存在的问题,而是在后面提出DeepQA的时候说明了提出方法的优势,也等于变相地说明原始方法的问题 - 文中方法部分
(1) 我使用的是proposed,时态有问题,没有统一
(2) 专用名词简写有问题,比如CNN在我的重写版本里没有说明是什么,而DeepQA也没有交代清楚具体简写。
(3) 感觉任务说的太具体化了,weighted map of the visual snesitivity,而原文里是the behavior of HVS,摘要还是要通俗易懂一点比较好。还有就是对data distribution的三个名词介绍,在摘要里引入了太多的新概念。
(4) 当时写的时候就觉得用does not不好,但也没想到怎么改,原文里是用的without - 实验结论部分
(1) 这边有个逻辑仔细想想没有原文写得好,the predicted visual sensitivity maps are close to the HVS, 而原文里是the predicted visual sensitivity maps agree with the human subjective opinions.
下一篇论文计划
Circle Loss, CVPR2020