-
Roi Pooling
-
The main function of ROI layer is reshape inputs with arbitrary size into a fixed length output because of size constraint in Fully Connected layers, 能够允许对feature map进行复用,能够减轻许多运算量,极大的加速training和testing 的速度
-
具体步骤:
-
输入:
-
从具有多个卷积和池化操作堆积得到的网络中获得的固定大小的feature map
-
一个表示所有ROI的N*5 的矩阵, N表示所有的ROI的个数,5代表四个角的坐标和一个图像的 index
-
-
首先根据输入的image,将ROI映射到feature map对应的位置
-
将映射后的区域划分为固定大小的 n*n的 section,
-
对每个section做max_pooling
-
-
Bounding-Box Regression
-
在Fast Rcnn中,有两个输出层:
-
一个是每个ROI区域的分类概率预测
-
第二个是每个ROI区域坐标的偏移优化量
,
是多类检测的类别序号, 这个量当然越小越好
-
-
对于类别
, 都会在ROI中有一个ground truth,
, 而预测值是
, 损失函数定义为
-
-
-