第一步,将这个完整的图片经过若干卷积层与max pooling层,得到一个feature map。
第二步,用selective search算法从这完整的图片中提取出object proposals,即RoI。
第三步,根据映射关系,可以得到每个object proposal对应的feature map。
第四步,将第三步得到的feature map经过RoI pooling layer得到固定大小的feature map(变小了)。
第五步,经过2层全连接层(fc),得到固定大小的RoI特征向量。
第六步,特征向量经由各自的FC层,得到两个输出向量:第一个是分类,使用softmax,第二个是每一类的bounding box回归。
6. multi-task loss
有两个损失: 分类loss(Lcls),是一个N+1路的softmax输出,其中的N是类别个数,1是背景;
回归loss(Lloc),是一个4xN路输出的regressor,也就是说对于每个类别都会训练一个单独的regressor。
论文中=1, 用于调整2个损失之间的平衡;
当图片是背景时:k*=0 → [k* ≥ 1]=0
当图片不是背景时:k*≥ 0 → [k* ≥ 1]=1
这里regressor的loss不是L2的,而是一个平滑的L1(预防梯度爆炸),如下公式: