論文出處 : Perceptual Losses for Real-Time Style Transfer and Super-Resolution
Introduction
以往 Style Transfer 以及 Super Resolution 的 task 中,計算 ground-truth image 與 model output 的 pixel 之間對應的差異是最直觀的 object loss,然而在圖像的感知上,pixel-loss function 考量到的差異太過冗餘,並不能真正反映在影像生成的 task 上,論文中舉了一個例子是,假設一 feature map 的每一個 pixel 如果都加上 1 1 1,那在 pixel-loss function 的數值會偏大,但是其實在視覺上的感受是差不多的,肉眼不論對於顏色、邊緣、角落較為敏感的是相對關係。
文中認定 Style 代表的是特定 Color,Texture 亦或是較為抽象的 Semantic(High level feature) 的分布,是一種交互關係,一種相對量而並非絕對量,而本文利用了 CNN 架構中不同 level 中的 feature map 針對該 level filter 的性質作相對應的計算來得到新的 object。
本文重點 : Feature Reconstruction Loss 和 Style Reconstruction Loss
Framework
左半部在文中實作上是 Residual Connection,且為避免影像過度壓縮而沒有使用 Max Pooling 而是將 stride 設成 2 2 2,最後一層的 activation function 為 scaling tanh 以確保灰度值介於 0 0 0 到 255 255 255。
右半部的 Loss Network 為 ImageNet VGG-16 的 pre-train model,用途在於將影像做特徵的提取而並非優化影像的生成,因此在訓練過程中的參數是固定不變的。
y ^ \hat y y^ 是 Image Transform Net 的 output, y s y_s ys 與 y c y_c yc 分別代表著兩種不同的 label :Style 和 content,如下圖所示 :
而該模型架構不單單可以應用在 Style Transfer 上,Super-Resolution 亦可視為一種 Style Target 與原影像相同的 task。
Feature Reconstruction Loss
Definition : l f e a t ϕ , j ( y ^ , y ) = 1 C j H j W j ∣ ∣ ϕ j ( y ^ ) − ϕ j ( y ) ∣ ∣ 2 2 l_{feat} ^{\phi,j}(\hat y,y)=\dfrac{1}{C_{j}H_{j}W_{j}} ||\phi_j(\hat y) - \phi_j(y)||^2_2 lfeatϕ,j(y^,y)=Cj