[論文筆記] Perceptual Losses for Real-Time Style Transfer and Super-Resolution

这篇论文介绍了在实时风格迁移和超分辨率任务中,传统像素损失函数并不足以准确反映视觉感知的差异。文章提出了特征重建损失(Feature Reconstruction Loss)和风格重建损失(Style Reconstruction Loss),通过VGG-16预训练模型提取特征来衡量生成图像与目标之间的相对关系。实验表明,结合总变分正则化,这种损失函数能有效提升生成图像的质量和风格一致性。
摘要由CSDN通过智能技术生成

論文出處 : Perceptual Losses for Real-Time Style Transfer and Super-Resolution

Introduction

以往 Style Transfer 以及 Super Resolutiontask 中,計算 ground-truth imagemodel outputpixel 之間對應的差異是最直觀的 object loss,然而在圖像的感知上,pixel-loss function 考量到的差異太過冗餘,並不能真正反映在影像生成的 task 上,論文中舉了一個例子是,假設一 feature map 的每一個 pixel 如果都加上 1 1 1,那在 pixel-loss function 的數值會偏大,但是其實在視覺上的感受是差不多的,肉眼不論對於顏色、邊緣、角落較為敏感的是相對關係。
文中認定 Style 代表的是特定 ColorTexture 亦或是較為抽象的 Semantic(High level feature) 的分布,是一種交互關係,一種相對量而並非絕對量,而本文利用了 CNN 架構中不同 level 中的 feature map 針對該 level filter 的性質作相對應的計算來得到新的 object

本文重點 : Feature Reconstruction LossStyle Reconstruction Loss


Framework

在这里插入图片描述
左半部在文中實作上是 Residual Connection,且為避免影像過度壓縮而沒有使用 Max Pooling 而是將 stride 設成 2 2 2,最後一層的 activation functionscaling tanh 以確保灰度值介於 0 0 0 255 255 255
右半部的 Loss NetworkImageNet VGG-16pre-train model,用途在於將影像做特徵的提取而並非優化影像的生成,因此在訓練過程中的參數是固定不變的。
y ^ \hat y y^Image Transform Netoutput y s y_s ys y c y_c yc 分別代表著兩種不同的 label :Stylecontent,如下圖所示
在这里插入图片描述
而該模型架構不單單可以應用在 Style Transfer 上,Super-Resolution 亦可視為一種 Style Target 與原影像相同的 task


Feature Reconstruction Loss

Definition : l f e a t ϕ , j ( y ^ , y ) = 1 C j H j W j ∣ ∣ ϕ j ( y ^ ) − ϕ j ( y ) ∣ ∣ 2 2 l_{feat} ^{\phi,j}(\hat y,y)=\dfrac{1}{C_{j}H_{j}W_{j}} ||\phi_j(\hat y) - \phi_j(y)||^2_2 lfeatϕ,j(y^,y)=Cj

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值