[論文筆記] Perceptual Losses for Real-Time Style Transfer and Super-Resolution

最新推荐文章于 2022-03-04 18:48:01 发布

Chang Lee

最新推荐文章于 2022-03-04 18:48:01 发布

阅读量2.2k

点赞数

本文链接：https://blog.csdn.net/Dennis_Lee_/article/details/83044188

版权

这篇论文介绍了在实时风格迁移和超分辨率任务中，传统像素损失函数并不足以准确反映视觉感知的差异。文章提出了特征重建损失（Feature Reconstruction Loss）和风格重建损失（Style Reconstruction Loss），通过VGG-16预训练模型提取特征来衡量生成图像与目标之间的相对关系。实验表明，结合总变分正则化，这种损失函数能有效提升生成图像的质量和风格一致性。

摘要由CSDN通过智能技术生成

論文出處 : Perceptual Losses for Real-Time Style Transfer and Super-Resolution

Introduction

以往 Style Transfer 以及 Super Resolution 的 task 中，計算 ground-truth image 與 model output 的 pixel 之間對應的差異是最直觀的 object loss，然而在圖像的感知上，pixel-loss function 考量到的差異太過冗餘，並不能真正反映在影像生成的 task 上，論文中舉了一個例子是，假設一 feature map 的每一個 pixel 如果都加上 $1$ ，那在 pixel-loss function 的數值會偏大，但是其實在視覺上的感受是差不多的，肉眼不論對於顏色、邊緣、角落較為敏感的是相對關係。
文中認定 Style 代表的是特定 Color，Texture 亦或是較為抽象的 Semantic(High level feature) 的分布，是一種交互關係，一種相對量而並非絕對量，而本文利用了 CNN 架構中不同 level 中的 feature map 針對該 level filter 的性質作相對應的計算來得到新的 object。

本文重點 : Feature Reconstruction Loss 和 Style Reconstruction Loss

Framework

在这里插入图片描述
左半部在文中實作上是 Residual Connection，且為避免影像過度壓縮而沒有使用 Max Pooling 而是將 stride 設成 $2$ ，最後一層的 activation function 為 scaling tanh 以確保灰度值介於 $0$ 到 $255$ 。
右半部的 Loss Network 為 ImageNet VGG-16 的 pre-train model，用途在於將影像做特徵的提取而並非優化影像的生成，因此在訓練過程中的參數是固定不變的。
$\hat y$ 是 Image Transform Net 的 output， $y_s$ 與 $y_c$ 分別代表著兩種不同的 label ：Style 和 content，如下圖所示：
在这里插入图片描述
而該模型架構不單單可以應用在 Style Transfer 上，Super-Resolution 亦可視為一種 Style Target 與原影像相同的 task。

Feature Reconstruction Loss

Definition ： $l_{feat} ^{\phi,j}(\hat y,y)=\dfrac{1}{C_{j}H_{j}W_{j}} ||\phi_j(\hat y) - \phi_j(y)||^2_2$

最低0.47元/天解锁文章

Chang Lee

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫