x、y是以真实值的中心为远点的坐标,w和h是预测框的长宽。先做平移再做缩放。输入P,映射之后的G‘尽可能接近真实的G。映射就是P+P*dp
注意!输入的RegionProposal→P=(Px,Py,Pw,Ph) RegionProposal→P=(Px,Py,Pw,Ph),这个是什么? 输入就是这四个数值吗?其实真正的输入是 这个窗口对应的 CNN 特征 ,也就是 R-CNN 中的 Pool5 feature(特征向量)。 (注:训练阶段输入还包括 Ground Truth, 也就是下边提到的t∗=(tx,ty,tw,th)
Fast RCNN
Fast RCNN主要有3个改进:1、卷积不再是对每个region proposal进行,而是直接对整张图像,这样减少了很多重复计算。原来RCNN是对每个region proposal分别做卷积,因为一张图像中有2000左右的region proposal,肯定相互之间的重叠率很高,因此产生重复计算。2、用ROI pooling进行特征的尺寸变换,因为全连接层的输入要求尺寸大小一样,因此不能直接把region proposal作为输入。3、将regressor放进网络一起训练,每个类别对应一个regressor,同时用softmax代替原来的SVM分类器。
网络的输入是图片和ROI的位置信息。
SPP Net(Fast Rcnn与SPP有联系)
SPP-Net在cov-5会输出256层特征图,每一层都做一次空间金字塔池化。先把每个特征图分割成多个不同尺寸的网格,比如网格分别为44、 22、1*1,然后每个网格做maxpooling,这样256层特征图就形 成了16256,4256,1*256维特征, 它们连起来就形成了一个固定长度的特征向量,将这个向量输入到 后面的全连接层。(简单地说就是划分网格,然后进行最大池化,网格的划分大小不同。)
Faster RCNN
下面这幅图更加详细中间的流程
Mask RCNN
ROI Align