摘要
在模型訓練中,適當的數據增強能夠提升預測表現,因此是非常有必要的, 然而這種做法通常是使用一些有限的圖像處理基於原始資料來產生更多不同的 資料,而生成對抗網路(GAN)的出現使得我們能夠有更多的選擇。儘管如此,但 碰上較大規模或複雜的轉換時,像是使圖片從白天到夜晚的轉換等等,因此,本 篇論文提出基於 GAN 延伸的數據增強器 AugGAN,能夠將道路行駛的圖片根據 需求轉換同時保留更多的原本的細節。 這篇論文主要有三個貢獻: 1. 提供一種能夠感知結構的圖像轉換網路:網路能夠學習潛在數據轉換, 能將不同 domain 的圖像轉換並可減少轉換後圖像中的噪點等影響,提 高圖像轉換的品質。 2. 證明了檢測器並不受限於訓練資料的 domain。 3. 在比較難以檢測的夜間場景下,檢測性能大幅提升。
Introduction
高級駕駛輔助系統(ADAS)和自動駕駛車輛中最關鍵的功能是車輛檢測, 目前絕大部分的檢測系統都是設計於白天使用,當然我們會期望 ADAS 無論在 白天或夜晚都能準確的檢測車輛,但事實上這是非常困難的,因為車輛在白天和 夜晚外觀差異非常大,除了車輛顏色、距離等因素,還必須要考慮到遮擋、燈光 問題等,造成車輛特徵不太容易辨識。儘管 R-CNN、YOLO 的出現帶來了一些 突破,但是效果還是有限,此外,在公開的資料集中含有車輛的資料集大多都是 白天的場景,真實駕駛場景中的夜間車輛資料集非常少見。 直到最近,生成對抗網路(GAN)的出現,使得將資料集從白天轉換成夜晚的 圖片變得不是幻想,但是要直接套用還是會出現一些瑕疵,因此本文基於 GAN 提出了 AugGAN,一種結構感知的非成對圖像到圖像的轉換網路,能將現有的資 料集轉換至其他 domain,可直接用於目標檢測的訓練。由於從白天轉換至夜晚 的圖像是最困難的轉換之一,因此本文特別強調其重要性,但他們的方法也適用 於其他 domain 的轉換。
Proposed Framework
為了將圖片正確的轉換同時將物件良好的保留,本文假定編碼須包含原始與 轉換後的 domain 風格資訊以及輸入的圖片資訊結構。 上圖為本文提出的網路架構,X,Y 代表兩種圖像的 domain,X^,Y^分別代表 對應的切割遮罩,Z 代表編碼後的特徵空間,架構含有兩個 encoders EX,EY,兩 個 image-translation generators GX,GY,兩個 parsing nets PX,PY,兩個 discriminators DX,DY,此網路會同時於正向及反向循環中學習圖像翻譯以及分割子任務。
結論
在本文中,作者提出了 AugGAN,一種無配對式圖片轉換網路,用於駕駛時 物件偵測訓練圖片轉換,透過更佳的圖片物件保留做到能夠打敗其他方法,實現 更高的夜間車輛檢測準確度。此外,公共資料集中大多數的白天車輛資料集也因 為可透過 AugGAN 轉換為更真實的夜間資料集而提升價值,可用於夜間車輛檢 測的開發。除了將圖片做晝夜轉換外,AugGAN 還可提供更多不同的 domain 轉 換,如虛擬-虛擬、虛擬-現實、現實-現實、現實-虛擬等。