原文 : Super-Identity Convolutional Neural Network for Face Hallucination
Introduction
Face Hallucination 為一將人臉影像從低解析度(low resolution)轉變為高解析度(high resolution)的過程,以往方法大多考量的是輸出影像是否清晰、逼真(visual quality),沒有考量影像是否能夠identity recovery。
然而,現實生活中除了轉換為高解析度影像外亦會有在還原影像上辨識身分的需求,如2016年暑假在紐約時剛好遇到曼哈頓的爆炸案,嫌疑犯的現場照片因為解析度過低,無法清楚辨識。
最大的技術角度在於放大的目的,為了最大化人臉辨識的效果,並彌平高解析度以及低解析度人臉之間常見的特徵值差異,與其他GAN-based方法比較,會保留更多細節。
模型架構可以分為兩個部分:hallucination model - C N N H CNN_{H} CNNH 以及 recognition network - C N N R CNN_{R} CNNR,分別處理兩個任務,而因為兩種模型會交互影響,文中亦提到訓練時遇到的問題與對應的解決方法以及觀察,最後在以 visual quality、identity recovery、identity recognizability 三種項目作為比較以往模型在 Face Hallucination 的表現標準。
Model Framework
Face Hallucination Network 中的 DB 指的是 ref [10] : Densely Connected Convolutional Networks 中的 Dense Block :
如上圖所示,每一個 DB 中總共會有五次 BN-ReLU-Conv 的過程,每一次的輸入都是上一次的所有輸出,其核心價值是 create short paths from early layers to later layers ,因為 Max Pooling 等降維運算會使 information flow 難以傳遞至較深的 layer ,而產生 vanishing-gradient 的問題,而 DB 中的輸入保留了淺層資訊,能夠減輕其效應,亦能有效利用 feature ,減少需要參數量,想法上借鑑於 Residual Networks (ResNets) ,但在表現上較好,其中 C N N H CNN_{H} CNNH 的 loss 記做 L S R L^{SR} LSR,即兩張影像圖素的差異。
R e s i d u a l N e t w o r k s : x l = H l ( x l − 1 ) + x l − 1 {Residual~Networks ~: ~x_{l} = H_{l}(x_{l-1})} + x_{l-1} Residual Networks : xl=Hl(xl−1)+xl−1
D e n s e l y C o n n e c t e d N e t w o r k s : x l = H l ( [ x 0 , x 1 , . . . , x l − 1 ] ) {Densely~Connected~Networks ~ : ~x_{l} = H_{l}([x_{0}, x_{1}, ..., x_{l-1}])} Densely Connected Networks : x