带你一文了解图像着色技术发展史

1. 引言

我们将深入探讨黑白图像着色的基本原理,追溯图像着色技术的发展历程,从传统的基于规则的方法到机器学习的前沿技术。

机器学习,尤其是使用卷积神经网络(CNN)和生成对抗网络(GAN)的深度学习,为图像着色带来了革命性的变化。本文还探讨了结合物体检测和语义分割的最新进展,以及transformer和扩散模型等最新网络架构。为了评估这些技术,我们还将讨论比较流行的图像着色数据集和对应的评价指标。

闲话少说,我们直接开始吧!

2. 图像着色简介

图像着色(Image Colorization)是为灰度图像添加色彩的过程。最初拍摄的图像是黑白的,通过估算RGB颜色,将这些灰度图像转化为生动逼真的彩色图像。这项技术既能增强美感,又能提高感知质量。历史上,艺术家们都是手动为灰度照片添加色彩,这是一项艰巨的任务,一张照片可能需要花费长达一个月的时间。然而,随着信息技术的进步和深度神经网络的兴起,自动图像着色变得越来越重要。

3. RGB颜色空间

首先我们来了解最基础的RGB颜色空间,在该空间中的每一种都在各种应用中对色彩的表现起着至关重要的作用。
在这里插入图片描述
RGB 是数字成像中最常用的色彩空间。它使用红、绿、蓝 3 种主要成分来表示颜色。RGB 模型中的每种颜色都是由三个值组成的元组,每个值的范围从 0 到 255。
RGB 与显示器和电视机等显示设备兼容,因此被广泛应用于数字成像领域。

4. 传统图像着色方法

  • 基于规则的方法

这类方法使用人类预定义的规则对灰度图像进行自动着色。例如,基于规则的方法可能会利用草地通常是绿色而天空通常是蓝色这一事实,自动对图像的这些部分进行着色。基于规则的方法可以快速高效,但不一定总能产生准确或逼真的结果,尤其是对于复杂或模糊的图像。

  • 色彩传播技术
    在这里插入图片描述

这类方法利用图像中已知或参考区域的颜色信息,将颜色传播或扩散到图像的其他部分。例如,如果着色算法知道图像的某个区域是一棵树,它就可以利用图像中其他树的颜色信息来推断出该区域的正确颜色。这种方法能产生更连贯、更逼真的着色效果,但它需要大量不同的参考图像数据集才能有效发挥作用。

5. 基于CNN的图像着色

在图像着色方面,CNN 可用于学习灰度图像与相应彩色图像之间的映射。这通常是通过在灰度和彩色图像对的大型数据集上训练 CNN 来实现的。CNN 学会从灰度图像中提取特征,并利用这些特征来预测相应的彩色图像。使用CNN进行图像着色的优势之一是,CNN 可以学习复杂的特征表示,捕捉图像中颜色和纹理的细微差别。与传统的基于规则的方法相比,这能带来更真实、更准确的着色效果。
在这里插入图片描述
2016 年发表的论文<< Colorful Image Colorization >>提出了一种全自动图像着色方法,能产生生动逼真的结果。作者将该问题视为一项分类任务,并在训练时使用类平衡来增加结果中颜色的多样性。他们还引入了新的的目标函数,以处理问题的多模态不确定性。

在这里插入图片描述

作者利用大规模数据训练卷积神经网络 (CNN),在给定灰度图像的情况下预测图像的颜色通道。他们为着色问题量身定制了新的损失函数,以鼓励模型充分利用其所训练的大规模数据的多样性。最终的结果是,与以前的方法相比,着色更加鲜艳,感知更加逼真。

6. 基于GAN的图像着色

在图像着色方面,GAN 可用于生成高质量的着色效果,比传统方法生成的着色效果更逼真,更具视觉吸引力。这通常是通过在灰度和彩色图像对的大型数据集上训练 GAN 来实现的。生成器网络学习如何从灰度图像生成彩色图像,而判别器网络则学习如何区分真实图像和生成的彩色图像。

在这里插入图片描述

使用 GAN 进行图像着色的优势之一是,它们可以生成与原始灰度图像更加一致的着色。这是因为生成器网络的训练目的是生成与数据集中真实彩色图像相似的着色,而判别器网络的训练目的是确保生成的着色与原始灰度图像一致。

在这里插入图片描述
2020 年发表的论文 << ChromaGAN: Adversarial Picture Colorization with Semantic Class Distribution >>,提出了一种利用生成式对抗网络和语义信息对灰度图像进行着色的方法。作者介绍了一种生成式对抗网络,它能根据语义线索推断出给定灰度图像的色度。该网络以对抗模型为框架,通过结合对颜色和类别分布的感知和语义理解来学习着色。该模型通过完全自监督的策略进行训练。

7. 基于Transformer的图像着色

CNN 一直是图像着色的主力军。然而,在捕捉图像中的长距离依赖关系时,它们存在局限性。为了解决这个问题,研究人员正在探索transformer架构。这些模型以其捕捉长距离关系的能力而著称,并能一次性分析整个灰度图像。这样,在预测每个像素的颜色时,它们就能考虑到全局背景。基于transformer的网络有可能生成具有更好的全局色彩和谐感和一致性的着色,从而解决基于 CNN 的方法的局限性。
在这里插入图片描述
2021 年发表的论文 <<Colorization Transformer>>提出了一种突破传统方法的图像着色方法。该网络不依赖 CNN,而是利用了transformer的强大力量。它用循序渐进的方法进行着色。它不会一次性直接预测每个像素的最终 RGB 颜色。相反,它首先在低分辨率下创建粗略的着色。然后,通过迭代过程,逐步完善色彩并提高分辨率。这种循序渐进的方法可以让模型首先专注于捕捉整体色彩方案,然后逐步增加细节,从而实现更自然的着色效果。

在这里插入图片描述

8. 基于扩散模型的图像着色

扩散模型最近两年以其显著的成功在图像生成领域掀起了一场风暴。这些模型从随机噪声开始,逐渐完善去噪,最终生成逼真的图像。现在,研究人员正在将扩散模型用于彩色化。在这种情况下,起点可能是灰度图像,扩散过程会逐步添加颜色信息,生成逼真的彩色化版本。扩散模型为着色提供了一种有趣的方法。它们的迭代改进过程有可能产生高保真的着色效果,捕捉真实世界色彩变化的细微差别。
在这里插入图片描述
2023 年发表的论文<< Improved Diffusion-based Image Colorization via Piggybacked Models>>探讨了图像着色领域突破传统方法的最新进展。这种方法利用图像生成的强大工具–扩散模型,以独特的方式为灰度图像添加色彩。

在这里插入图片描述

这种基于扩散的方法具有多种优势。通过利用预先训练好的模型,着色过程可以从模型对色彩的理解以及色彩与语义概念的关联中获益。此外,扩散引导器和感知亮度的 VQ-VAE 相互配合,可生成与原始灰度图像细节相匹配的逼真着色效果。最后,该方法还允许进行有条件着色,在这种情况下,用户提示或文本描述等附加信息可被纳入其中,从而引导着色过程向特定的色彩偏好发展。

9. 数据集介绍

在众多图像着色数据集中,有几个数据集比较突出,是衡量着色算法性能的热门选择。下面我们就来详细了解一下这些关键数据集:

  • ImageNet:这个庞大的数据集在图像分类领域独占鳌头,但其庞大的规模(数以百万计的标注图像)也使其在训练图像着色中使用的深度学习模型方面具有重要价值。研究人员用它来训练各种模型,其中大部分是单一对象内容,从而更好地泛化到未见过的图像。

  • MS-COCO:该数据集多用于语义分割任务。它还提供了有关图像内容的多种宝贵信息,尤其适用于多物体场景。通过整合这些语义分割数据,着色算法可以对颜色分配做出更明智的决定,从而获得更逼真的结果。例如,如果知道某个区域代表一辆汽车,就能引导算法使用逼真的汽车颜色,而不是仅仅依赖局部图像特征。

以上只是几个例子,数据集的选择取决于具体的研究重点。无论是通用的着色模型,还是为特定领域量身定制的模型,拥有结构合理且多样化的数据集对于改进图像着色研究至关重要。

10. 评价指标

就像评判一幅画一样,评估图像着色的质量需要结合技术指标和人的感知。以下是一些常用方法的详细介绍:
在这里插入图片描述

  • PSNR:这一指标源于信号处理,用于测量信号的峰值功率与干扰噪声功率的比较。在图像彩色化中,它反映了原始彩色图像与彩色化版本之间的差异。PSNR 越高表明差异越小,但并不一定能保证感知上的相似性。PSNR 可能会被不真实的颜色所迷惑,而这些颜色的整体恰好与GT相似。

  • SSIM: 该指标不仅仅考虑强度差异,还试图捕捉图像之间的结构相似性。它考虑了亮度、对比度和结构,提供了比PSNR更细致的评估。不过与 PSNR 一样,SSIM 也是一种客观指标,可能与人类对着色质量的感知并不完全一致。

  • FID:该指标是另一种基于深度学习的指标,用于评估图像分布的相似性。它比较预先训练好的深度网络在原始彩色图像和彩色化图像上的特征相似度。其假设是,如果着色过程是成功的,那么网络学习到的特征分布在两组图像之间应该是相似的。

11. 相关应用

相关图像着色的应用可以总结如下:

  • 历史照片彩色化:历史照片是了解过去的宝贵窗口。然而,它们的黑白性质会给人一种疏离感。彩色化可以弥合这一差距,让我们在更感性的层面上与历史人物和事件建立联系。
    在这里插入图片描述
  • 视频修复:档案胶片和视频录像往往会随着时间的推移而老化,失去鲜艳度和色彩准确性。图像着色技术可以为这些珍贵的记录注入新的活力,让我们以更接近原始光彩的方式见证历史事件或经典电影。

12. 总结

图像着色是为灰度图像添加颜色的过程。随着机器学习的进步,特别是使用 CNNGAN 的深度学习,自动图像着色变得越来越重要。总之,图像着色是一个快速发展的领域,这一技术变革有可能让历史图像和黑白照片栩栩如生。

13. 参考

本文参考相关论文如下:

[1]. Transferring Color to Greyscale Images:链接
[2]. Colorful Image Colorization:链接
[3]. ChromaGAN:链接
[4]. Colorization Transformer:链接
[5]. Improved Diffusion-based Image Colorization via Piggybacked Models:链接
[6]. ImageNet:链接
[7]. MS-COCO:链接

  • 17
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

赵卓不凡

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值