Perceptual Losses for Real-Time Style Transfer and Super-Resolution 解读

Larryzx

于 2022-03-13 14:28:28 发布

阅读量891

点赞数 1

分类专栏： cs.CV论文笔记文章标签：计算机视觉深度学习 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Larryzx/article/details/123459025

版权

cs.CV论文笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1.网络模型

1.1 组成部分

网络模型总体分为两部分:Image Transform Net和VGG-16

Image Transform Net是参数W待训练的网络
VGG-16是已经预训练好参数的网络

1.2 工作原理

(1) 输入为 :

原始图像 $x$
风格目标图 $y_s$
内容目标图 $y_c$

(2) Image Transform Net作用：

将原始图像 $x$ 经过Image Transform Net得到输出图像 $\hat{y}$
映射关系为: $\hat{y} = f_W(x)$
其中W是Images Transform Net的参数， x是网络输入，y是网络输出。

(3) VGG-16作用：

内容层面

将 $\hat{y}$ 与 $y_c$ 在VGG中间层的欧式距离作为Loss训练图像转换网络

使得Image Transform Net输出的 $\hat{y}$ 与目标内容图 $y_c$ 越来越接近
风格层面

将 $\hat{y}$ 与 $y_s$ 在VGG多个中间层得到的feature map生成的Gram矩阵的欧式距离加权和作为Loss训练图像转换网络

使得Image Transform Net输出的 $\hat{y}$ 与目标风格图 $y_s$ 越来越接近

2.损失函数

2.1特征内容损失(Feature Reconstruction Loss)

$\ell_{feat}^{\empty , j}(\hat{y},y) = \frac{1}{C_jH_jW_j}\Vert \empty_j(\hat{y})-\empty_j(y)\Vert_2$

j 表示VGG-16中间层代号
y表示特征目标图像
$\hat{y}$ 表示image transform net 输出的图像
$\empty_{j}(y)$ 表示图像y在VGG-16中间层j时的输出
$\empty_{j}(\hat{y})$ 表示图像 $\hat{y}$ 在VGG-16中间层j时的输出
$C_jH_jW_j$ 分别表示在VGG-16中间层j时的通道数、高度、宽度

Feature Reconstruction Loss 这数学公式就可以理解为两个图像在VGG-16中间层j的欧氏距离

越小说明VGG-16网络认为这两张图越接近

2.2风格损失(Style Reconstruction Loss)

Gram特征矩阵中的元素
$G_{j}^{\empty}(x)_{c,c^{'}} = \frac{1}{C_jH_jW_j} \sum_{h=1}^{H_j} \sum_{w=1}^{W_j}\empty_j(x)_{h,w,c}\empty_{j}(x)_{h,w,c^{'}}$

VGG中间层j的feature map大小为[ $C_j$ , $H_j$ , $W_j$ ]

我们经过flatten和矩阵转置操作可以变形为[ $C_j$ , $H_j*W_j$ ]和的[ $H_j*W_j$ , $C_j$ ]矩阵

再对两个作内积得到Gram Matrices大小为[ $C_j,C_j$ ]

中间层j的风格损失

$\ell_{style}^{\empty,j}(\hat{y},y) =\Vert G_j^{\empty}(\hat{y}) - G_j^{\empty}(y)\Vert_{F}^{2}$

计算图像 $y$ 和图像 $\hat{y}$ 两者VGG-16中间层j中gram矩阵距离的平方和

2.3简单损失函数

像素损失

像素损失是输出图和目标图之间标准化的差距
$\ell_{pixel}({\hat{y},y}) = \frac{1}{CHW}\Vert \hat{y}-y\Vert_2^2$
全变差正则化

为使得输出图像比较平滑，遵循了前人在特征反演上的研究，在超分辨率重建上使用了全变差正则化 $\ell_{TV}(\hat{y})$

3.Image Transform Net细节

3.1 风格迁移

Layer
9x9 conv , stride=2
3x3 conv , stride=2
Residual blocks
Residual blocks
…
Residual blocks
3x3 conv , stride= $\frac{1}{2}$
9x9 conv , stride= $\frac{1}{2}$

具体解释

1.输入 $x$ 大小为3x256x256

2.使用2层 stride=2 的卷积层进行下采样

3.使用5个残差模块

4.使用2层stride= $\frac{1}{2}$ 的卷积层进行上采样

5.输出 $\hat{y}$ 大小为3x256x256

输入图像与输出图像大小相同先下采样再上采样的好处

可计算复杂性
- 比较
- 3x3的C个卷积核在CxHxW的图像上需要 $9C^2HW$
- 3x3的DC个卷积核在DC x $\frac{H}{D}$ x $\frac{W}{D}$ 的图像上也需要 $9C^2HW$
- 在下采样之后，我们可以使用一个更大的网络来获得相同的计算成本
有效的感受野大小
- 优势就在于在输出中的每个像素都有输入中的大面积有效的感受野
- 一个附加的3x3卷积层都能把感受野的大小增加2倍
- 在用因子D进行下采样后，每个3x3的卷积增加感受野的大小到2D
- 下采样使得相同数量的层给出了更大的感受野大小

3.2超分辨率

假设上采样因子为 $f$

Layer
Residual blocks
Residual blocks
…
Residual blocks
3x3 conv , stride= $\frac{1}{2}$
3x3 conv , stride= $\frac{1}{2}$
( $一共使用\log_2{f}个conv$ )
9x9 conv , stride= $\frac{1}{2}$

具体解释

1.输入 $x$ 大小为3 x $\frac{288}{f}$ x $\frac{288}{f}$

2.使用 5个残差模块

3.使用\log_2{f}个stride= $\frac{1}{2}$ 的卷积层进行上采样

5.输出 $\hat{y}$ 大小为3x288x288

3.3 残差连接

3.4其他细节

除开第一个和最后一个层用9x9的kernel 其他所有卷积层都用3x3的kernels
优化方法选的是SGD（随机梯度下降法）
除去最后一层卷积层后连接Tanh激活层，其他非残差卷积层都连接Batch Norm归一层和ReLu激活层
上面的做法可以使得输出图像的像素值在 [0*,* 255]这个范围

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Perceptual Losses for Real-Time Style Transfer and Super-Resolution 解读

1.网络模型1.1 组成部分网络模型总体分为两部分:Image Transform Net和VGG-16Image Transform Net是参数W待训练的网络VGG-16是已经预训练好参数的网络1.2 工作原理(1) 输入为 :原始图像xxx风格目标图ysy_sys内容目标图ycy_cyc(2) Image Transform Net作用：将原始图像xxx经过Image Transform Net得到输出图像y^\hat{y}y^映射关系为: y^=
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。