论文笔记:Let there be color!
文章目录
这是我阅读的图像上色相关的第二篇论文,这篇文章的核心在于通过结合图像的全局与局部先验进行端到端的训练,实现同步分类的图像自动着色。
1、引言
本文基于CNN 提出了一种完全自动化的数据驱动的灰度图像着色方法。该方法利用从整幅图像中提取的全局图像先验和从小块图像中计算的局部图像特征来自动对图像着色。全局先验提供了图像级别的语义信息,而局部先验则表示了给定位置的局部纹理或目标。
本文的主要工作包括:
- 提出了一项无用户参与的灰度图像上色方法;
- 提出了一种端到端的图像局部与全局特征联合学习方法
- 探索了利用分类标签在性能提升方面的作用
- 探索了一种使用全局特征的风格迁移技术
2、架构
本文的模型架构分为四个部分:
- Low-level feature network
- Middle-level feature network
- Global feature network
- Colorization network
模型结构如下图所示:
各subnet的网路结构如下表,outputs表示输出通道数:
所有的卷积块都没有使用pooling,而是直接通过strides来进行下采样,需要注意的是Middle-level feature network的输入是来自于Low-level feature network,但在计算Global fature时由于有三层FC层,所以为了获得固定尺寸的输出,将low-level的输入进行了缩放(224x224), 但是这两个部分的low-level feature network在卷积核上是共享参数的。
Fusion layer: 特征融合层,将middle-level feature 与 global feature进行融合,融合方式如下:
Classificaiton Network: 分类网络, 以Global feature network的倒数第二层(512-vector)作为输入,进过一层隐含层(256-dims)后输出(205-dims)的分类输出,将分类预测与真实标签做交叉熵损失,与colorization的ab值预测的MSE损失进行整合,构成新的损失:
3、实验结果与讨论
本文基于Place dataset进行训练,部分上色的效果如下:
结果表明对于不同的场景图像,本文的模型都有很好的上色效果,另外,作者将本文提出的模型去除全局特征之后形成了一个baseline, 然后与之前的Cheng等人的Deep colorization做对比,结果如下:
实验发现,通过整合全局与局部先验,本文的模型在图像的重要区域的上色效果要由于之前的SOTA模型。
3.1 用户调研
为了研究本文模型上色效果,作者开展了用户调研。将本文模型生成的上色图像、baseline的上色图像与真实的图像随机给参与者观察,并就颜色是否自然做出回答,实验表明约70%的baseline图像被认为是自然的,对于本文的模型来说,这个概率为92.6%,接近于真实图像的97.7%。
3.2 通过全局特征来进行风格迁移
一张图像的全局特征于局部特征是分离的,所以利用一张图像的全局特征与另一张图像的局部特征可以改变上色图像的风格。具体的做法是在测试的时候,分别输入两张图像的灰度图,其中A图像是待上色的,B图像根据它的灰度图与分类的语义标签输入Global feature network得到全局特征,再将A图像通过middle-level feature network 计算局部特征,最后做feature fusion, 进而输入colorization network预测ab值。下图展示了融合不同图像的局部/全局特征用以进行风格迁移的示例:
可以看到,在上色的过程中确实将B的原图的风格转移到了A的上色后的图像中。
3.3 颜色空间的对比
本文还进行了不同颜色空间的比较,分别就RGB、Lab和YUV颜色空间进行实验。具体来说,对于RGB空间,更改网络结构, 输出三通道的预测(rgb), 训练时直接使用三通道(不是很理解,意思是输入彩色图像作为训练?)。测试时将彩色图像转化到YUV空间,并将Y通道作为灰度图像进行输入。下图是对比结果:
可以看到本文的模型在三个颜色空间中都有不错的上色效果,但从感官上来说还是Lab空间的效果最佳,这也大概是大多数模型选择使用Lab颜色空间来进行上色任务的原因吧。
4、缺陷与讨论
本文的模型仍旧是data-driven的, 所以对训练数据集中包含的图像属性具有较好的上色效果,但是对于数据集包含之外的对象的上色效果并不明显。另一方面,在利用上色任务进行风格迁移时,为了获得较好的迁移效果,两张图像在语义上需要保持相似。最后, 上色任务本身具有歧义(ambiguous),对于现实中的物体可能的颜色多种多样,作者提到这或许需要在图像上色本身的环节上进行额外优化。
如上图, 第一行中模型并没有捕捉到“秋天”这一语义信息,第二行中由于上色歧义性问题造成效果不佳。
5、思考
相比起Deep colorization这篇论文,本文使用到了代表一张图像的语义的标签信息,同时通过CNN进一步进行特征融合,而不是简单地连接,因此能获得更好地效果。