使用Tensorflow2.0实现roi-Align和FPN

最新推荐文章于 2022-11-04 14:22:37 发布

qq_42449401

最新推荐文章于 2022-11-04 14:22:37 发布

阅读量754

点赞数

文章标签： tensorflow 神经网络

本文链接：https://blog.csdn.net/qq_42449401/article/details/109491868

版权

本文介绍了如何在Tensorflow2.0中实现ROI-Align和FPN，通过理论与代码结合的方式帮助理解。文章详细解析了ROI-Align的工作原理，并展示了从Faster R-CNN中提取的代码，包括VGG16网络、特征图大小、region proposal映射以及双线性插值等关键步骤。此外，还提到了生成anchors和FPN的实现过程。

摘要由CSDN通过智能技术生成

Tensorflow2.0实现roi-Align和FPN

在网上看了很多关于roi-Align的博客，只有一些理论概念。没有一些代码，看着也是很懵。就自己在Faster-RCNN把roi-Align和FPN的代码提取了出来来理解。代码在对下面。
roi-Align是在Mask RCNN中使用以便使生成的候选框region proposal映射产生固定大小的feature map时提出的。

先贴出一张图，接着通过这图解释RoiAlign的工作原理
在这里插入图片描述
同样，针对上图，有着类似的映射

1)Conv layers使用的是VGG16，feat_stride=32(即表示，经过网络层后图片缩小为原图的1/32),原图800800,最后一层特征图feature map大小:2525

2)假定原图中有一region proposal，大小为665665，这样，映射到特征图中的大小：665/32=20.78,即20.7820.78，此时，没有像RoiPooling那样就行取整操作，保留浮点数

3)假定pooled_w=7,pooled_h=7,即pooling后固定成77大小的特征图，所以，将在 feature map上映射的20.7820.78的region proposal 划分成49个同等大小的小区域，每个小区域的大小20.78/7=2.97,即2.97*2.97

4)假定采样点数为4，即表示，对于每个2.97*2.97的小区域，平分四份，每一份取其中心点位置，而中心点位置的像素，采用双线性插值法进行计算，这样，就会得到四个点的像素值，如下图
在这里插入图片描述
上图中，四个红色叉叉‘×’的像素值是通过双线性插值算法计算得到的

最后，取四个像素值中最大值作为这个小区域(即：2.972.97大小的区域)的像素值，如此类推，同样是49个小区域得到49个像素值，组成77大小的feature map

因为要单独计算roi-Align需要anchors，跟FPN的输出结果，我就自己生成了2000个anchor，也把FPN单独写了出来。tensorflow≥2.0。

roi-Align.py

import tensorflow as tf
import numpy as np
import random
from tensorflow.keras import layers

class FPN(tf.keras.Model):
    def __init__(self, out_channels=256, **kwargs):
        super(FPN, self).__init__(**kwargs)

        self.out_channels = out_channels
        self.fpn_c2p2 = layers.Conv2D(out_channels, (1,1),
                                      kernel_initializer='he_normal',name='rpn_c2p2')
        self.fpn_c3p3 = layers.Conv2D(out_channels,(1,1),
                                      kernel_initializer='he_normal',name='fpn_c3p3')
        self.fpn_c4p4 = layers.Conv2D(out_channels,(1,1),
                                      kernel_initializer='he_normal',name='fpn_c4p4')
        self.fpn_c5p5 = layers.Conv2D(out_channels,(1,1),
                                      kernel_initializer='he_normal',name='fpn_c5p5')

        self.fpn_p3upsampled = layers.UpSampling2D(size=(2,2),name='fpn_p3upsampled')
        self.fpn_p4upsampled = layers.UpSampling2D(size=(2,2),name='fpn_p4upsampled')
        self.fpn_p5upsampled = layers.UpSampling2D(size=(2,2),name='fpn_p5upsampled')

        self.fpn_p2 = layers.Conv2D(out_channels,(3,3), padding='SAME',
                                    kernel_initializer='he_normal',name='fpn_p2')
        self.fpn_p3 = layers.Conv2D