深度学习实战老照片上色

goomind

已于 2024-11-28 19:51:23 修改

阅读量1k

点赞数 20

分类专栏：深度学习实战项目文章标签：深度学习人工智能老照片上色 GAN 计算机视觉 pytorch

于 2024-11-28 19:39:50 首次发布

本文链接：https://blog.csdn.net/weixin_40280870/article/details/144118870

版权

深度学习实战项目专栏收录该内容

112 篇文章

订阅专栏

在这里插入图片描述

1.研究背景与意义

深度学习在老照片上色领域的研究具有重要的背景与意义。随着人工智能技术的不断进步，尤其是深度学习算法的发展，传统的图像处理方法已无法满足日益复杂的需求。老照片上色技术正是在此背景下应运而生，它不仅是图像处理的技术突破，也是对历史文化遗产保护的一种创新方式。

传统的老照片往往是黑白的，无法真实呈现历史的色彩面貌。而深度学习，特别是卷积神经网络（CNN）等技术的应用，使得从黑白照片中自动预测和生成色彩成为可能。这项技术能够通过学习大量彩色图像数据，从而对老照片中的细节和背景做出合理的颜色推测，达到较高的上色效果。通过这种方式，不仅能够为历史影像增添色彩，更能让现代观众以更直观的方式感受历史的真实面貌。

此外，老照片上色不仅限于视觉效果的提升，它还为历史研究、文化遗产保护等领域提供了新的视角和手段。上色后的照片更易于引起公众的关注与讨论，帮助后人更好地理解和传承历史文化。因此，深度学习在老照片上色方面的应用具有极大的学术与社会价值，能够促进历史资料的数字化保存与传播，同时为文化遗产保护带来新的发展机遇。

深度学习老照片上色的核心技术原理主要依赖于卷积神经网络（CNN）、生成对抗网络（GAN）、自编码器等模型。这些技术通过模仿人类视觉系统的工作原理，能够从黑白照片中自动推断出合适的颜色，甚至在某些复杂情况下，生成逼真且符合物理规律的色彩。以下将详细介绍这项技术的核心原理及其实现过程。

深度学习实战老照片上色

1. 卷积神经网络（CNN）在老照片上色中的应用

卷积神经网络（CNN）是深度学习中最常用的图像处理模型之一，它的核心思想是通过卷积操作提取图像的局部特征，并通过池化操作减少数据维度，提高计算效率。CNN模型具有较强的特征提取能力，在图像分类、目标检测等任务中表现出色，因此成为了老照片上色的基础技术之一。

1.1 卷积层与特征提取

在传统的图片处理中，图像上色往往是手动完成的，通常依赖图像的纹理、明暗、形状等信息。而深度学习方法则自动通过数据驱动的方式学习这些特征。在老照片上色中，CNN的卷积层通过卷积核扫描图像，从黑白图像中提取出局部特征。例如，图像的边缘、纹理、轮廓等。对于每个像素，CNN会根据它周围的特征推断可能的颜色。

1.2 颜色空间转换

老照片一般为灰度图像，只有亮度信息，没有色彩信息。CNN会先将灰度图像转化为三通道（RGB）图像，目标是为每个像素预测其对应的RGB值。通过训练，CNN能够学习到从亮度信息推断色彩的规则。例如，图片中的天空区域通常应该被上色为蓝色，草地区域则应为绿色。CNN通过不断训练，可以学会不同场景中颜色的关联，从而更准确地预测上色结果。

1.3 损失函数与训练优化

为了让模型能够准确地预测颜色，训练过程中会使用损失函数来衡量预测结果与真实结果之间的差距。常见的损失函数包括均方误差（MSE）、对比损失等。模型通过最小化损失函数的值来不断优化参数，使得预测的颜色更加接近真实的颜色。

2. 生成对抗网络（GAN）在老照片上色中的应用

生成对抗网络（GAN）是由两部分网络组成的深度学习架构，其中一个是生成器（Generator），另一个是判别器（Discriminator）。生成器负责生成假图片，而判别器则判断生成的图片是否真实。两者通过博弈的方式进行训练，最终生成器能够生成更加真实的图片。GAN的这种对抗性训练方式，在老照片上色中也发挥了重要作用。

2.1 生成器与判别器

在老照片上色的任务中，生成器的目标是从黑白照片中生成具有合理颜色的彩色照片。判别器的任务是判断生成的彩色图像是否与真实的彩色图像相似。在训练过程中，生成器和判别器不断竞争，生成器通过学习如何生成越来越逼真的颜色图像，而判别器则学习如何识别伪造的彩色图像。

2.2 对抗训练

生成器和判别器的对抗训练使得上色效果更加自然。通过对抗过程，生成器不仅能推测颜色，还能够更好地考虑图像的语义信息和上下文信息。例如，生成器学习到的人物肤色可能会因肤色的种族不同而有所不同，背景颜色也会随季节、时间等因素变化。因此，GAN能够生成更加符合自然世界规律的颜色，而不仅仅是表面的色彩填充。

2.3 条件生成对抗网络（cGAN）

条件生成对抗网络（cGAN）是GAN的一种扩展，它将额外的条件信息输入到生成器和判别器中。在老照片上色的任务中，黑白图像本身就是一个条件输入，cGAN利用这一信息来生成更加符合图像内容的颜色。例如，对于一张描绘城市风景的黑白照片，生成器能够根据城市的特点生成合适的颜色，而对于一张描绘森林的照片，生成器则会自动生成绿色和棕色的色调。cGAN的这种特性极大地提高了老照片上色的质量和准确性。

3. 自编码器与图像修复

自编码器（Autoencoder）是一种无监督学习模型，它通过编码器将输入图像映射到一个潜在空间，然后通过解码器将潜在空间中的信息还原成原始图像。在老照片上色中，自编码器能够学习到图像的潜在特征，进而生成缺失的颜色。

3.1 编码器-解码器结构

自编码器的编码器部分将输入的灰度图像转化为低维的潜在表示，这些潜在表示包含了图像的结构信息。解码器则将这些信息转换回彩色图像。在上色任务中，编码器学习到的潜在表示包含了图片的纹理、形状和空间关系等信息，解码器根据这些信息生成合适的颜色。

3.2 图像修复与填充

自编码器还可以用于图像修复任务。在老照片上色中，黑白图像中缺失的色彩信息可以看作是图像的“缺失部分”，自编码器通过学习从已知的黑白信息中填充缺失的颜色。这种方法通过利用图像的整体结构来推断未标注区域的颜色，通常能够生成较为自然的色彩效果。

4. 实现效果

在这里插入图片描述

4.0 代码实现

import time

import cv2
import numpy as np
from PyQt5.QtGui import QImage, QPixmap, QPalette
from PyQt5.QtWidgets import QMainWindow, QFileDialog, QDesktopWidget

from algo import color_image
from ui_mainwindow import Ui_MainWindow
from utils import image_read_from_chinese_path


class MyMainWindow(QMainWindow):
    def __init__(self, parent=None):
        # 调用父类构造函数，创建窗体
        super().__init__(parent)
        # 创建UI对象
        self.ui = Ui_MainWindow()
        # 构造UI界面
        self.ui.setupUi(self)

        self.set_centre()
        self.image_file_path = None
        self.ui.pushButton_select_image_1.clicked.connect(self.image_select_slot)
        self.ui.pushButton_img_color.clicked.connect(self.pushButton_image_color_slot)


    def pushButton_image_color_slot(self):
        try:
            color_img = color_image(image_read_from_chinese_path(self.image_file_path))

            self.show_image(color_img, self.ui.label_img_color)
        except Exception as e:
            print(e)

    def set_centre(self):
        screen = QDesktopWidget().screenGeometry()
        size = self.geometry()
        self.move(int((screen.width() - size.width()) / 2), int((screen.height() - size.height()) / 2))

    def image_select_slot(self):

        self.ui.label_img_color.clear()
        self.ui.label_img_src.clear()

        self.image_file_path, ret = QFileDialog.getOpenFileName(None, '选择图像', "./datasets_test",
                                                                "图像文件 (*.jpg *.jpeg *.png *.bmp)")

        if self.image_file_path:
            self.show_image(image_read_from_chinese_path(self.image_file_path), self.ui.label_img_src)


    @staticmethod
    def show_image(img_src, label):
        try:
            ih, iw, _ = img_src.shape
            w = label.geometry().width()
            h = label.geometry().height()
            # 保持纵横比
            # 找出长边
            if iw > ih:
                scal = w / iw
                nw = w
                nh = int(scal * ih)
                img_src_ = cv2.resize(img_src, (nw, nh))

            else:
                scal = h / ih
                nw = int(scal * iw)
                nh = h
                img_src_ = cv2.resize(img_src, (nw, nh))

            frame = cv2.cvtColor(img_src_, cv2.COLOR_BGR2RGB)
            img = QImage(frame.data, frame.shape[1], frame.shape[0], frame.shape[2] * frame.shape[1],
                         QImage.Format_RGB888)
            label.setPixmap(QPixmap.fromImage(img))

        except Exception as e:
            print(repr(e))