深度学习领域在近几年取得了重大突破,其中大部分研究成果都基于感知技术,计算机通过模仿人类的思维方式,感知物体、识别内容。生成对抗网络的理念由Goodfellow于2014年提出的,它的发展历程只有六年,却对人工智领域带来了极大的冲击。
GAN的博弈过程,就是使用生成器制造的数据分布来拟合真实的数据分布。设置是一个生成动漫图片的网络,接收一个随机的噪声,生成动漫图片并输出。设置为判别网络,输入一张动漫图片,判别器可以计算出该图为生成的或真实图片的概率。两者分别根据返回的结果反向更新网络,相互抗衡,动态变化最后达到纳什均衡。
基于GAN性能的优越性,该模型逐渐被运用到图像处理领域的各个方向,其中包括图片转换、图像修复、风格迁移、图像生成等。例如:2016年Phillip Isola等人设计的pix2pixGAN[4]模型,可以将语义图片转换为街景和建筑的照片、素描图转彩色图片等,在图像转换领域实现了重大突破。
原始的GAN网络虽然在2014年才首次提出,但其扩展速度迅猛,产生了大量衍生网络,如:DCGAN、SGAN、ACGAN等。2015年Mattya首次提出了chainerGAN,通过DCGAN实现动漫人物生成,但Chainer框架并未得到大范围应用。随后,Jie Lei等人在2017年发表了Animegan,该项目使用GAN框架,提出了三种新的损失函数:灰度风格loss、灰度对抗loss、色彩重构loss,将各类现实场景下的图像转化为动漫风格的图像,例如自然风景、道路街景的转换。但遗憾的是,这些项目对于非计算机领域的爱好者使用具有一定难度,产生了局限性。
2017年,复旦大学和CMU的学生共同发布了一项名为MakeGirlsMore的动漫人物生成项目,发布后在Github受到广泛关注。该项目使用 React.js作为页面基本框架,为了提高项目的实用性,开发者将Chainer模型转化为基于WebAssembly的Java 模型。用户可以在浏览器的界面上设置动漫人物的相关参数,例如:眼睛颜色、面部表情、发型等信息,实现动漫人物的自动生成。
▐ 训练方案
首先,建立图像样本库需要大量动漫图像,可使用Python在动漫素材相关网站爬取或使用网络上已有的数据集,按照固定比例划分训练集和测试集,并对样本进行标准化处理,使图像大小保持,每一张图片拥有唯一ID。
其次,选择CNN作为DCGAN的基础网络,对CNN的池化层和全连接层进行调整。DCGAN是一种深度卷积网络,可以实现目标特征提取以及图像分类。在定义DCGAN中的生成网络和判别网络时,通过增加ReLU、Sigmoid等激活函数用于参数处理、图像分类等工作。
在训练网络之前,使用Pytorch作为框架,Python作为编程语言完成代码编写,利用Adam优化器最小化损失函数,优化程序调整超参数。训练网络时,使用Visdom实现训练过程的可视化,通过控制学习率、迭代次数、训练比例等参数,设置多组对照实验,观察实验结果并利用测试集进行多次测试。
将多组实验结果进行对比分析,可得到一组最优网络参数,利用训练好的目标网络模型,便可输出多张不同的动漫图像,技术路线如图1.3所示:
图1.3 技术路线图
神经网络及GAN相关技术介绍
▐ 神经网络相关概念
计算机网络中的神经元是神经网络基本组成单位,它的结构参考了生物神经元。1943年McCulloch等人提出了神经元模型M-P。对于神经网络的发展有着重要的影响。M-P抽象模型如图2.1所示:
图2.1 神经元结构模型
结合图2.1来看,神经元的输入输出关系用有向箭头来表示,输入信号可以用Xi表示,输出用Y来表示, Wi表示权重。多个神经元可以通过设定的连接关系组合成为神经网络。
目前,神经网络根据工作原理可以分为人工神经网络和生物神经网络,在计算机领域中,人工神经网络的原理是利用计算机模拟大脑的工作方式。下图2.2展示了神经网络主要类别,本文的DCGAN模型就是基于多层神经网络CNN实现的。
图2.2 神经网络主要类别
单层感知器模型前馈神经网络最经典的模型,该模型与1957年由Frank Rosenblatt提出,可实现二类线性分类。将神经元节点添加在网络的输入、输出位置,作为网络的输入单元和输出单元。输入单元的功能是传输数据,输出单元实现对上一层的输入进行计算功能。下图2.3为第一代神经网络感知模型:
图2.3 第一代神经网络模型
由于第一代神经网络模型不能适用于处理异或问题,仅局限于线性可分问题。所以直至20 世纪 80 年代中期,分布式并行处理(Parallel Distributed Pro-cessing ,PDP)模型开始受到广泛关注。反向传播算法也逐渐成为 PDP 模型的主要学习算法这时,神经网络才又开始引起人们的注意,并重新成为新的研究热点[7]。第二代神