Tensorflow2.0实现roi-Align和FPN
在网上看了很多关于roi-Align的博客,只有一些理论概念。没有一些代码,看着也是很懵。就自己在Faster-RCNN把roi-Align和FPN的代码提取了出来来理解。代码在对下面。
roi-Align是在Mask RCNN中使用以便使生成的候选框region proposal映射产生固定大小的feature map时提出的。
先贴出一张图,接着通过这图解释RoiAlign的工作原理
同样,针对上图,有着类似的映射
1)Conv layers使用的是VGG16,feat_stride=32(即表示,经过网络层后图片缩小为原图的1/32),原图800800,最后一层特征图feature map大小:2525
2)假定原图中有一region proposal,大小为665665,这样,映射到特征图中的大小:665/32=20.78,即20.7820.78,此时,没有像RoiPooling那样就行取整操作,保留浮点数
3)假定pooled_w=7,pooled_h=7,即pooling后固定成77大小的特征图,所以,将在 feature map上映射的20.7820.78的region proposal 划分成49个同等大小的小区域,每个小区域的大小20.78/7=2.97,即2.97*2.97
4)假定采样点数为4,即表示,对于每个2.97*2.97的小区域,平分四份,每一份取其中心点位置,而中心点位置的像素,采用双线性插值法进行计算,这样,就会得到四个点的像素值,如下图
上图中,四个红色叉叉‘×’的像素值是通过双线性插值算法计算得到的
最后,取四个像素值中最大值作为这个小区域(即:2.972.97大小的区域)的像素值,如此类推,同样是49个小区域得到49个像素值,组成77大小的feature map
因为要单独计算roi-Align需要anchors,跟FPN的输出结果,我就自己生成了2000个anchor,也把FPN单独写了出来。tensorflow≥2.0。
roi-Align.py
import tensorflow as tf
import numpy as np
import random
from tensorflow.keras import layers
class FPN(tf.keras.Model):
def __init__(self, out_channels=256, **kwargs):
super(FPN, self).__init__(**kwargs)
self.out_channels = out_channels
self.fpn_c2p2 = layers.Conv2D(out_channels, (1,1),
kernel_initializer='he_normal',name='rpn_c2p2')
self.fpn_c3p3 = layers.Conv2D(out_channels,(1,1),
kernel_initializer='he_normal',name='fpn_c3p3')
self.fpn_c4p4 = layers.Conv2D(out_channels,(1,1),
kernel_initializer='he_normal',name='fpn_c4p4')
self.fpn_c5p5 = layers.Conv2D(out_channels,(1,1),
kernel_initializer='he_normal',name='fpn_c5p5')
self.fpn_p3upsampled = layers.UpSampling2D(size=(2,2),name='fpn_p3upsampled')
self.fpn_p4upsampled = layers.UpSampling2D(size=(2,2),name='fpn_p4upsampled')
self.fpn_p5upsampled = layers.UpSampling2D(size=(2,2),name='fpn_p5upsampled')
self.fpn_p2 = layers.Conv2D(out_channels,(3,3), padding='SAME',
kernel_initializer='he_normal',name='fpn_p2')
self.fpn_p3 = layers.Conv2D