Style Transfer for Anime Sketches with Enhanced Residual U-net and Auxiliary Classifier GAN

网络结构

本文的GAN网络结构为:

这里写图片描述

生成网络的输入为需要风格转换的图像即input,以及风格特征.采用VGG16/19的fc1层,提取风格图像的特征,风格特征为4096维的向量.

生成网络结构和目标函数

文章试验发现,如果u-net可以使用底层的网络学习到特征,那么高层的网络就不会去学习,如图4所示,u-net网络的输入输出都为同一张图像,也就是实现复制图像的功能.由于输入输出是相同的,损失函数会立刻变为0.这是因为encoder的第1层发现可以通过skip connection, 简单地直接传递所有的特征到decoder的最后一层,以最小化损失函数.这样,无论训练多少次,中间层的网络都没有任何梯度值,也就是中间网络没有作用了.

这里写图片描述

对于u-net的decoder层,特征可以来源于更高的层或者skip connection层.在训练的时候,这些层可以选择别的层的输出,这可以通过非线性函数实现,以最小化损失函数.

在图4的实验中,采用高斯随机初始化u-net网络参数,encoder的第1层的输出完全足够表达输入特征,而encoder的第2到最后一层的输出更多的是噪声特征,因此网络放弃了这些noisy feature.

对于一个新的初始化的u-net网络,如果直接将4096维的特征向量到u-net的中间层,那么这些层会非常noisy. 如上面分析,如果中间层网络噪声化严重,那么u-net网络会放弃这些层,结果就是,这些层不能得到任何的梯度,我们将这些层称为lazy layer.

受LeNet,GooLeNe的启发,我们使用残差网络,如图5.

这里写图片描述

将额外的loss添加到可能为lazy的层,那么无论这些层多么noisy, unet都不会放弃这些网络层,并且在整个训练过程中,这些层都会得到稳定的梯度. 这样,便可以在中间层添加一些含有特征信息的,甚至noisy hint的特征.本文实现了两个额外的loss,分别在Guide decoder 1和Guide decoder 2中,以消除中间层的梯度消失.

生成网络损失函数定义为:

这里写图片描述

文章还提出,对于色彩分布,往

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值