PI-REC 水记 (线稿+色块→绘画)

fishslot

已于 2022-09-15 00:40:28 修改

阅读量300

点赞数

分类专栏：我的论文笔记文章标签：深度学习人工智能计算机视觉

于 2022-09-15 00:27:42 首次发布

本文链接：https://blog.csdn.net/goryghost/article/details/126862976

版权

我的论文笔记专栏收录该内容

30 篇文章 4 订阅

订阅专栏

PI-REC 水记 (线稿+色块→绘画)

在这里插入图片描述

https://github.com/youyuge34/PI-REC

官方视频教程：BV1db411g74d

机器之心新闻稿

渐进式图像重构网络：像画画一样重构图像

概览

训练分三个阶段，但是都是用同一套模型

在这里插入图片描述

数据集

数据集有 edges2shoes（鞋），edges2handbags[21]（包包），getchu[22]（动漫脸），CelebA（人脸）

预处理

边缘（线稿）：

用 Canny 算法提取边缘

色域（色块）：

先用中值滤波，再 K 均值[9]，得到色块。

然后再用一次中值滤波，模糊掉边缘

关于中值滤波，看这个《中值滤波与高斯滤波的原理和应用场合》

数据增强：

超参混淆：提取线稿和色块的时候需要设置超参。生成数据集的时候，超参是在一个范围内随机变化的。

线稿中的任意像素，有8%的概率变为0。

模型

生成器

U-Net结构，用了感知损失Johnson etal. [24]

（有意思的是这篇文章后面也用到了 LPIPS 来评价结果，但是训练还是用了这篇更老的感知损失）

8个残差块，膨胀卷积

因为有三个阶段，移除了冗余的跳跃连接

为了解决棋盘格伪影，把第一个反卷积层替换为双线性插值上采样和卷积

生成器训练的三个阶段

直接用色块来训练很难生成细节所以有三个阶段

在每个阶段训练时，在当前阶段上收敛后，才会进入下一个阶段

阶段一：

输入线稿和 masked ground truth

输出 ground truth

这里的 mask 率不超过70%（似乎是 pixel-wise 的mask）

阶段二：

输入线稿和色块

输出 ground truth

阶段三：

输入线稿和阶段二的输出

输出 ground truth

设计这个阶段，来自[33]

鉴别器

用了 PatchGAN ，结合 Spectral Normalization [31]

激活函数最后一层用的是 Sigmoid ，其余层用的 Leaky ReLU

损失函数

分为生成器损失和鉴别器损失

在这里插入图片描述

生成器损失分四个部分：像素级重建损失、对抗损失、特征损失、风格损失

鉴别器只有对抗损失

在三个阶段使用不同的权重

	像素级重建损失 ⁍	对抗损失 ⁍	特征损失 ⁍	风格损失 ⁍
阶段一	1	0.01	1	150
阶段二		0.1		0
阶段三		2		0

像素级重建损失：

在这里插入图片描述

这里的 $F_{sum}$ 计算非零元素的数量，用于控制 $L_{per-pixel}$ 的权重。

在阶段一中，随着 $M$ 遮罩面积的增大，整个 $L_{per-pixel}$ 的权重也会变大；

在阶段二和阶段三中， $L_{per-pixel}$ 的权重恒为 1 。

对抗损失：

选择了 LSGAN [29] 。这是为了提升稳定性，并且拟合真实图像中的高频细节

在这里插入图片描述

其中 $I$ 表示不同阶段的输入图像

（看式子，似乎就是一般的损失函数？

特征损失：

属于感知损失的一部分

在这里插入图片描述

$\Phi_i$ 表示一个 VGG19 第 $i$ 层的输出

$N_i$ 表示这个 VGG19 第 $i$ 层输出的尺寸

采纳了 ESRGAN 的建议，使用激活前的特征图，这样能产生更清晰的边缘线

特征图来自于 conv1-1,conv2-1, conv3-1, conv4-1, conv5-1（没懂啥意思）

风格损失：

属于感知损失的一部分

在这里插入图片描述
$G_i^\Phi$ 表示第 $i$ 层特征的 Gram 矩阵

作者注意到风格损失可以在阶段一有效减少棋盘格伪影，但是在后面两个阶段没用

所以可以看到，后面两个阶段风格损失的权重都被设为 0

fishslot

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PI-REC 水记 (线稿+色块→绘画)

PI-REC 水记 (线稿+色块→绘画)
复制链接

扫一扫

专栏目录