[論文筆記] Fast R-CNN(未完成)

傷心太平洋

已于 2022-02-27 02:07:58 修改

阅读量67

点赞数

分类专栏： Object Detection 文章标签：深度学习计算机视觉目标检测

于 2022-02-22 23:29:40 首次发布

本文链接：https://blog.csdn.net/JYLin_master/article/details/123079959

版权

Object Detection 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Fast R-CNN是一种目标检测算法，它改进了RCNN的效率。该框架包括四个步骤：候选区域生成、整张图像特征抽取、候选区域特征提取和分类回归。通过RoIPooling层，Fast R-CNN能从特征图中抽取固定尺寸的特征。在训练过程中，使用多任务学习，同时优化分类和边界框回归。模型通过预训练的ImageNet模型调整，并采用image-centric采样策略加速训练。

摘要由CSDN通过智能技术生成

完整的目標檢測架構

1. 抽取圖像中多個候選區域

這個部份負責從圖像中，找出可能是物件的候選區域 (region propos)
Fast R-CNN 並不包含這一部分

2. 抽取整張圖像的特徵

使用 CNN + Max pooling 抽取特徵

3. 取出候選區域的特徵

根據 region proposal 的位置，在 CNN 輸出的特徵圖上找到對應的區塊
將該區塊的特徵，輸入 RoI pooling layer + FC layer 後，得到固定長度的特徵向量

4. 輸出分類與回歸結果

候選區域的固定長度特徵向量，再經過一層 FC layer 後，會得到兩個分支的輸出
一個分支輸出 softmax probability 結果，預測每個類目的概率 (K個類別加上背景，共K+1個輸出值)
另一分支輸出 bbox regression 結果，為每個類目都輸出四個數值，用來修正 bounding-box 的位置 (共 4K 個輸出值)

RoI Pooling

首先，目標是從 Feature map 抽取固定尺寸的特徵，特徵的大小為 $H \times W$
根據 Region proposal 的位置，找到 feature map 對應的區域，區域的大小為 $h \times w$
將該區域切分成 $H \times W$ 個大小為 $\frac{h}{H} \times \frac{w}{W}$ 的 grid
對區域內所有 grid 做 Max pooling，得到 $H \times W$ 尺寸的特徵

訓練過程

預訓練

同樣使用了 ImageNet 預訓練，接著對三個部分做調整:

將模型最後的 Max pooling 換成 RoI Pooling
模型尾部的 FC Layer 與 1000類Softmax 更換成前面提到的兩個分支，分別是預測 BBox 位置修正量的 FC Layer 與 K+1 類Softmax。
網路的輸入改為兩個，分別是 Region proposals 與輸入影像

採用 image centric 採樣策略

過去 RCNN 的作法是，每個 mini-batch 中的 RoI 都採樣自不同的圖像
Fast RCNN 中，則是每個 mini-batch 固定採樣 N 個圖像，並從每個圖像採樣出 R/N 個 RoI
同個圖像中的 R/N 個 RoI 特徵，僅需要計算一次，因此減少了計算與儲存量
論文中，採用了 N=2, R=128 (作者發現，同圖像產生的多個 RoI 並不會影響模型收斂)
25% RoI 會是正樣本 (IoU ≧ 0.5)，75%是困難負樣本 (0.1 ≦ IoU < 0.5)

多任務訓練

Fast RCNN 模型有兩個輸出分支，分別是:
- 預測物件類別的機率分布 $p = (p_0, p_1, ..., p_K)$
- 預測 bounding box 的修正量 $t^k = (t^k_x, t^k_y, t^k_w, t^k_h)$
損失函數可以用下式表示

符號
- $u$ : 物件類別 (0: 背景)
- v : 物件位置修正量
- $\lambda$ : 用來調整兩種損失比例的參數
- $[u\geq 1]$ : 當括號裡面的條件滿足時為 1，其餘情況為 0
- $L_{cls}$ : 分類損失，採用了交叉熵損失
- $L_{reg}$ : 回歸損失，採用了 smooth L1