SSD 設計
Multi-scale feature maps for detection
- 在骨幹後方,加了許多的卷積層
- 使用多種尺度的特徵圖(共6種),進行預測
Convolutional predictors for detection
- 在前面提到的多種尺度特徵圖,再經過 3x3 卷積運算後,得到該尺度下的檢測輸出
Default boxes and aspect ratios
- 這些 default boxes 與 Faster RCNN 中的 anchor 類似,差別在於 SSD 中的 default box 是按照尺寸被分配至不同尺度中
- 每個尺度特徵圖上的每個網格,都會有 k 個物件預測值 (k 在不同尺度下,數值不同)
- 每個物件預測值,都包含 c 個類別的機率分布,與 4 個位置相關輸出
- 最終在尺寸為 m x n 的特徵圖上,會得到 個輸出值
訓練
Matching Strategy
- 將與 ground-true 物件之 Jaccard overlap 最大的 default box 視為正樣本 (相匹配)
- 將與 ground-true 物件之 Jaccard overlap > 0.5的 default box 視為正樣本 (相匹配)
- 因此一個 gounrd-true 可能對應到多個 default box 負責預測
Training Objective
- 符號
- : 第 i 個 default box 與第 j 個 ground true 是否匹配,是的話 1 否則為 0
- N : 具有匹配的 default box 數量
- : confidence loss,使用的是 softmax 損失
- : localization loss,使用的是 smooth L1
Choosing Scales and Aspect Ratios for Default Boxes
- 在處理多尺度物件時,許多方法是將圖像縮放至不同尺寸後,在這些尺寸下進行計算,最後合併所有處度的結果
- 如果是透過不同尺度的特徵圖,同樣可以達到類似的效果,而且因為不同尺度的特徵圖是共享計算量的,因此可以節省計算
- SSD 中,按模型輸出時採用的特徵圖尺度數 m ,分配每個特徵圖使用的 default box 尺度 :
- 符號解釋
- : 特徵圖中最小尺度的一個 (論文中為 =0.2)
- : (論文中為 =0.9)
- : default box 長寬比
- : default box 的寬 (透過長寬比與尺度可以計算出)
- : default box 的高 (透過長寬比與尺度可以計算出)
- : 對於長寬比為 1 的 default box,額外增加的一系列尺度 (用來銜接尺度間差異)
Hard Negative Mining
- Two stage 目標檢測方法常見的問題是正負樣本不均 (大量沒有物體的區域所產生)
- 訓練時,只取出最難的一部份負樣本,使正負樣本比例為 1:3
- 困難樣本的判定是將所有負樣本按 confidence loss 降序排列後,頭部的部分
- 這麼做能加速收斂,並且訓練時更穩定