【计算机视觉】实例感知图像着色 Instance-aware Image Colorization

WiIsonEdwards

已于 2023-04-06 20:29:06 修改

阅读量1k

点赞数 2

文章标签：计算机视觉人工智能图像处理

于 2023-02-06 15:17:33 首次发布

本文链接：https://blog.csdn.net/m0_53700832/article/details/128902094

版权

报告题目：

实例感知图像着色

参考文献：

[1] Jheng-Wei Su, Hung-Kuo Chu, Jia-Bin Huang: Instance-aware Image Colorization. CVPR 2020: 7968-7977

1 前言

在这篇CVPR 2020论文中，来自台湾清华大学和美国弗吉尼亚理工大学的华人作者提出了一种名为 “实例感知着色”的全新图像着色方法，先检测出灰度图像中的不同目标，再对目标图像进行着色，使预测出的彩色图片更加接近真实色彩。

图像着色问题在本质上是一个多模态、不确定的不适定问题。顾名思义，多模态问题研究的就是如何将不同类型数据进行融合；而适定问题(well-posed problem)和不适定问题(ill-posed problem)都是数学领域的术语，前者需满足以下三个条件：解必须存在；解必须唯一；解必须稳定，意即解能根据初始条件连续变化，不会发生跳变。在计算机视觉领域有很多任务是非适定问题，这些问题通常不满足上述第二个和第三个条件，譬如图像去模糊等问题没有标准答案，有无数种解，并且这些解都不稳定。有学者如是描述计算机视觉领域的不适定问题：一个输入图像会对应多个合理输出图像，而这个问题可以看作是从多个输出中选出最合适的那一个。

前人利用深度神经网络将输入灰度图像直接映射到合理的颜色输出，这种方法的最大缺点在于无法对包含多个对象的输入图像进行合理的着色。究其原因，主要是这些深度模型无法有效地定位物体级别的语义，无法将物体与其背景分离。这篇论文提出了一种实现实例感知着色的方法，使用现有的对象检测器来获取裁剪下来的物体图像，再使用实例着色网络来提取对象级特征；并使用一个类似的网络来提取整个图像的特征，最后使用一个融合模块将对象级和图像级特征进行合并以确定最终的颜色。作者声称他们的方法在多个质量指标上优于现有的方法，达到了最先进的图像着色性能。

图1.实例感知着色的效果。该方法能够在包含多个具有不同背景的对象的广泛场景上产生优良的着色结果。

2 相关工作进展

如何自动将灰度图像转换为合理的彩色图像是计算机视觉和图形学领域的一个重要任务。灰度图就是维度数为2，或者第三维为1的图，也称单通道图；彩色图每个像素点都用 3个值表示颜色，故称 3通道。但如何从给定的单通道灰度图像中预测两个缺失通道是一个不适定问题。另外着色任务可以是多模态的，因为给一个对象着色有多种可能的选择(如汽车可以是白色或黑色的)。

最初的方法是涂鸦着色和参考图像着色。涂鸦着色依赖于用户涂鸦（例如颜色点或笔划）来指导着色过程，但这样做人力成本巨大。

参考图像着色的方法从用户指定的参考图像或从互联网搜索的颜色统计数据对输入灰度图像进行着色，这样做虽然解放了一部分人力，但其性能高度依赖参考图像与输入灰度图像的相似程度

随着深度学习技术的进步，基于学习的着色方法展现出了令人惊喜的性能。但现有的方法缺乏有效的物体-背景分离手段，这就使得不能给多个对象预测合理的颜色。

此篇论文的作者针对此问题，提出了一个新的深度学习框架来实现实例感知着色。实例感知指的是无需事先给定物体的先验知识或者已知模型，也能进行场景中的多目标识别。实例感知是通过引入包含多级实例可能区域及其周围环境的视觉信息的多级特征体系结构来实现的。

这个框架分为三部分：

（1）一个现有的模型，用于检测对象实例并生成裁剪的对象图像；

（2）两个端到端的网络，分别用于实例着色和全图像着色;

（3）融合模块，用于选择性地合并从（2）的两个着色网络层中提取到的特征。

总的来说，本文的方法能够通过新提出的特征融合模块处理具有多个实例的复杂场景并且效果良好。

图2. 现有方法的局限性。现有的基于学习的方法无法预测多个对象实例（如滑雪者（上图）和车辆（下图））的可能颜色。由于缺乏清晰的图像-背景分离，（b）（下图）的结果也存在上下文混淆（偏向绿色）。

3 方法概览

5 训练与测试

在本节中，作者提供了大量实验结果来验证实例感知着色算法。

首先描述了实验中使用的数据集、性能评估指标和实现细节（5.1节）。然后汇报了三个大型数据集的定量评估结果，并将他们的结果与最先进的着色方法进行了比较（5.2节），展示了几个具有挑战性的图像的样本着色结果（5.3节），并进行了三项消融研究（5.4节），展示了为老黑白照片上色的效果（5.6节）以及方法失败的案例（5.7节）。

5.1 实验设置

5.1.1 数据集

实验使用三个数据集进行训练和评价。

ImageNet：ImageNet数据集由斯坦福大学的李飞飞教授带领创建，包含 14197122张图片，每一张图片都被手工标定好类别，是为了促进计算机图像识别技术的发展而建立的一个大型图像数据集，已被许多着色方法用作性能评估的基准。

COCO-Stuff：一个大型、丰富的物体检测、分割数据集。这个数据集主要从复杂的日常场景中截取，图像包括91类目标，328000影像和2500000个标签，虽然比ImageNet和SUN的类别少，但是每一类的图像多，这有利于获得更多的每类中位于某种特定场景的能力。

Places205：为了研究一种着色方法对来自不同数据集的图像着色的效果，使用来自Places205的20500张测试图像（来自205个类别）进行评估。值得注意的是，只使用Place205数据集来评估可移植性，而并不使用它的训练集和场景类别标签。

5.1.2 评价指标

根据现有着色方法实验协议，汇报了PSNR（Peak Signal to Noise Ratio，峰值信噪比）和SSIM（Structural Similarity，结构相似性）来量化着色质量。为了计算彩色图像上的SSIM，对单个通道计算的SSIM值取平均值。进一步使用了Zhang等人2018年在[40]提出的LPIPS（Learned Perceptual Image Patch Similarity，可学习感知图像块相似度）。

5.1.3 训练详情

对ImageNet数据集采用如下三步训练：

（1）全图像着色网络：使用[1]提供的预训练权重初始化网络。学习率为1e-5，epoch（将所有的数据送入网络中完成了一次前向计算和反向传播的过程）为2次。

（2）实例着色网络：使用全图像着色网络的预训练权重参数初始化实例着色网络，并以5e-5的学习率对5个epoch的模型进行微调。

（3）融合模块：全图像着色网络和实例着色网络都已训练后，将它们与融合模块集成。以2e-5的学习率对2个epoch的所有可训练参数进行微调。在作者的实现中，所有13层中的全图像特征、实例特征和融合特征的通道数为64、128、256、512、512、512、512、256、256、128、128、128和128。

在所有的训练中，使用[2]提出的ADAM（Adaptive Moment Estimation，自适应矩估计）优化器。为训练方便，将所有图像的分辨率调整为256×256。在ImageNet上训练模型需要在带有一个RTX 2080Ti GPU的台式机上大约三天。

5.2 定量对比

作者将他们的模型与现有最高水平的比较。表1展示了三个数据集的定量比较情况，结果表明新模型性能优于其它模型。用“*”表示使用在COCO-Stuff训练集上进行微调的模型，由于COCO-Stuff数据集包含的场景更为多样且更富挑战性，结果表明对COCO-Stuff数据集的微调也进一步提高了新模型在另外两个数据集的性能。

表1. 完整图像级别的定量比较。符号∗表示在COCO-Stuff训练集上微调的方法。

研究人员还进行了用户研究，以量化用户对新方法生成的着色结果的偏好。从COCO-Stuff验证数据集中随机选择100张图像，对每个参与者展示一对着色结果，并询问偏好（必须选择其中一个）。共有24名参与者投了2400票。结果表明，与Zhang等人[3]（61%vs.39%）和DeOldify[4]（72%vs.28%）相比，新方法的着色结果更受用户偏好。

5.3 可视化结果

图5展示了与最先进水平的对比情况，可以观察到视觉质量明显改善，尤其是对于那些具有多个实例的场景。

图6可视化了在多个级别融合实例级和完整图像级特性的学习掩码。可以看出，新提出的实例感知着色方法可以提高复杂场景的视觉效果。

图5.与现有最高水平的着色方法进行对比，新方法展现出了更为优越的性能。

图6. 可视化融合网络。第3层、第7层和第10层中的可视化加权掩码表明，新模型习得了跨不同层的混合特征。融合实例级特征有助于改进着色。

5.4 消融研究

作者还进行了消融研究，消融研究通常是指删除模型或算法的某些功能，并查看其如何影响性能。在所有消融研究实验中，使用COCO Stuff验证数据集。

第一步，作者表明将从实例网络提取的特征与全图像网络融合可以提高性能。同时使用编码器和解码器的融合功能表现最佳。

第二步，作者探究了不同边框选择策略的优劣，结果表明根据对象检测器返回的置信度选择前八个边界框的策略表现最佳。

第三步，作者测试了两种替代方法（使用检测到的框作为掩模和使用COCO-Stuff数据集中提供的真实背景实例掩模）融合来自多个潜在重叠对象实例的特征和来自全图像网络的特征的效果。结果表明使用他们的融合模块比其他两个选项的性能更好，采用融合模块能够处理包含多个重叠对象的、更具挑战性场景。

表3.消融实验。与几个备选方案进行比较来验证作者的设计选择是正确的。

5.5 运行时间分析

作者的着色方法包括两个步骤：（1）对单个实例着色并输出实例特征；以及（2）将实例特征融合到全图像特征中并将全图像着色。

使用配置为Intel i9-7900X 3.30GHz CPU、32GB内存和NVIDIA RTX 2080ti GPU的机器，对于分辨率为256×256的图像，平均运行时间为0.187秒，两个步骤中，每一步大约占运行时间的50%，而步骤1的复杂度与输入实例的数量成正比，范围从0.013秒（一个实例）到0.1秒（八个实例）。

5.6 为老黑白照片着色

将新模型应用于黑白照片上色。图7显示了新模型着色结果以及人类专家的手动着色结果。

图7.为老黑白照片着色。中间为人类专家手动上色结果。

5.7 失败案例

在图8中展示了两个失败案例。当未检测到实例时，新模型将弱化为完整图像着色网络，因此可能会产生肉眼可见的伪影。

图8.失败案例。（左）当检测中缺少很多花瓶时，模型恢复为全图像着色。（右）当有许多重叠的对象边界框时，融合模块可能会混淆。

6 小结

在这篇论文中，作者的贡献如下：

（1）提出了一种基于学习的全自动实例感知图像着色方法。

（2）提出了一种新的网络架构，利用现成的模型来检测对象，并从大规模数据中学习，在实例级和全图像级提取图像特征，并进行特征融合以获得合适的着色结果。

（3）对新方法进行综合评估，比较基准线并达到了最先进的性能。

参考文献

[1] Richard Zhang, Jun-Yan Zhu, Phillip Isola, Xinyang Geng, Angela S. Lin,Tianhe Yu, and Alexei A. Efros. Realtime user-guided image colorization with learned deep priors. ACM TOG (Proc. SIGGRAPH), 36(4):119:1–119:11, 2017.

[2] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. 2015.

[3] Lvmin Zhang, Chengze Li, Tien-Tsin Wong, Yi Ji, and Chunping Liu. Two-stage sketch colorization. ACM TOG (Proc. SIGGRAPH Asia), 37(6):261:1–261:14, 2018.

[4] Jason Antic. jantic/deoldify: A deep learning based project for colorizing and restoring old images (and video!). https://github.com/jantic/DeOldify,2019. Online; accessed: 2019-10-16.

WiIsonEdwards

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
【计算机视觉】实例感知图像着色 Instance-aware Image Colorization

然后汇报了三个大型数据集的定量评估结果，并将他们的结果与最先进的着色方法进行了比较（5.2节），展示了几个具有挑战性的图像的样本着色结果（5.3节），并进行了三项消融研究（5.4节），展示了为老黑白照片上色的效果（5.6节）以及方法失败的案例（5.7节）。作者将他们的模型与现有最高水平的比较。这个数据集主要从复杂的日常场景中截取，图像包括91类目标，328000影像和2500000个标签，虽然比ImageNet和SUN的类别少，但是每一类的图像多，这有利于获得更多的每类中位于某种特定场景的能力。
复制链接

扫一扫