1整体结构
2更为详细的
过程描述,向网络中输入一张图片,显示resize到M*N,之后通过我们预训练好的卷积网络,得到feature map。之后在RPN中的2个卷积为1*1网络 分别输出 RPN目标检测框的位置信息和框中是不是背景。如果是背景就把框舍弃。之后使用ROIPooling,将后面网络的输入固定。之后再通过网络输出 检测目标分类的结果和边框回归的结果。
3RPN的实现
输入的是形状为(h,w,512)的形状,之后通过卷积核为3*3的卷积层,得到(h,w,256)的特征。
在(h,w,256)的特征上我们在每一个像素点根据先验的知识设定了k个anchor boxes。
我们在分别通过卷积核为1*1的卷积,得到形状为(h,w,2K)和(h,w,4k)的结果,分别对应框中有没有物体,和框的位置信息。
4anchor boxes的筛选
我们预设了k个anchor boxes,如果每个anchor boxes都使用的话,会有很大的计算量,而且不是所有的anchor boxes都包括检测的物体。
我们把anchor boxes与groundtruth进行IoU操作,大于阈值的为正样本保留,反之舍弃。
5关于anchor boxes的预设
论文中指定了3种scal即边框大小和3种aspect ratio 宽高比例
相乘共得到9个anchor boxes。