1.FPN
FPN来源于论文《Feature Pyramid Networks for Object Detection》
1.1要解决的问题
传统的物体检测模型通常只在深度卷积网络的最后一个特征图上进行后续操作,而这一层对应的下采样率(图像缩小的倍数)通常又比较大,如16、32,造成小物体在特征图上的有效信息较少,小物体的检测性能会急剧下降,这个问题也被称为多尺度问题。如图1所示,这样会导致小目标漏检检测,因为在下采样过程中小目标的像素较少,在下采样过程中会丢失。
图1 单一高层次特征
1.2常见解决方案
(1)经典的方法是利用图像金字塔的方式进行多尺度变化增强,使用不同尺度图片分别提取特征,如图2所示,但这样会带来极大的计算量。
图2 图片特征金字塔
(2)特征金字塔,使用一张图片,提取不同层次的特征,但是不同层次的特征图缺少融合。
(3)FPN,在(2)的基础上添加了上下层特征融合
2.FPN网络结构
FPN主要包含自下而上网络、自上而下网络、横向连接与卷积融合4个部分。
2.1自下而上
最左侧为普通的卷积网络,默认使用ResNet结构,用作提取语义信息。C1代表了ResNet的前几个卷积与池化层,而C2至C5分别为不同的ResNet卷积组,这些卷积组包含了多个Bottleneck结构,组内的特征图大小相同,组间大小递减。
2.2自上而下
首先对C5进行1×1卷积降低通道数得到P5,然后依次进行上采样得到P4、P3和P2,目的是得到与C4、C3与C2长宽相同的特征,以方便下一步进行逐元素相加。这里采用2倍最邻近上采样,即直接对临近元素进行复制,而非线性插值。·
2.3横向连接
目的是为了将上采样后的高语义特征与浅层的定位细节特征进行融合。高语义特征经过上采样后,其长宽与对应的浅层特征相同,而通道数固定为256,因此需要对底层特征C2至C4进行1*1卷积使得其通道数变为256,然后两者进行逐元素相加得到P4、P3与P2。由于C1的特征图尺寸较大且语义信息不足,因此没有把C1放到横向连接中。·
2.4卷积融合
在得到相加后的特征后,利用3×3卷积对生成的P2至P4再进行融合,目的是消除上采样过程带来的重叠效应,以生成最终的特征图。对于实际的物体检测算法,需要在特征图上进行RoI提取,而FPN有4个输出的特征图,选择哪一个特征图上面的特征也是个问题。FPN给出的解决方法是,对于不同大小的RoI,使用不同的特征图,大尺度的RoI在深层的特征图上进行提取,如P5,小尺度的RoI在浅层的特征图上进行提取
3.FPN pytorch实现
3.1 Bottleneck类实现
import torch.nn as nn
import torch.nn.functional as F
# ResNet基本的Bottleneck类
class Bottleneck(nn.Module):
expansion = 4 #通道扩增倍数
def __init__(self, in_planes, planes, stride=1, downsample=None):
super(Bottleneck, self).__init__()
self.bottleneck = nn.Sequential(
nn.Conv2d(in_planes, planes, 1, bias=False),
nn.BatchNorm2d(planes),
nn.ReLU(inplace=True),
nn.Conv2d(planes, planes, 3, stride, 1, bias=False),
nn.BatchNorm2d(planes),
nn.ReLU(inplace=True),
nn.Conv2d(planes, self.expansion * planes, 1, bias=False),
nn.BatchNorm2d(self.expansion * planes),
)
self.relu = nn.ReLU(inplace=True)
self.downsample = downsample
def forward(self, x):
identity = x
out = self.bottleneck(x)
if self.downsample is not None:
identity = self.downsample(x)
out += identity# shortcut
out = self.relu(out)
return out
3.2FPN类
class FPN(nn.Module):
'''
FPN需要初始化一个list,代表ResNet每一个阶段的Bottleneck的数量
'''
def __init__(self, layers):
super(FPN, self).__init__()
#构建C1
self.inplanes = 64
self.conv1 = nn.Conv2d(3, 64, 7, 2, 3, bias=False)
self.bn1 = nn.BatchNorm2d(64)
self.relu = nn.ReLU(inplace=True)
self.maxpool = nn.MaxPool2d(3, 2, 1)
#自下而上搭建C2、C3、C4、C5
self.layer1 = self._make_layer(64, layers[0])
self.layer2 = self._make_layer(128, layers[1], 2)
self.layer3 = self._make_layer(256, layers[2], 2)
self.layer4 = self._make_layer(512, layers[3], 2)
#对C5减少通道,得到P5
self.toplayer = nn.Conv2d(2048, 256, 1, 1, 0)
#3*3卷积融合
self.smooth1 = nn.Conv2d(256, 256, 3, 1, 1)
self.smooth2 = nn.Conv2d(256, 256, 3, 1, 1)
self.smooth3 = nn.Conv2d(256, 256, 3, 1, 1)
#横向连接,保证每一层通道数一致
self.latlayer1 = nn.Conv2d(1024, 256, 1, 1, 0)
self.latlayer2 = nn.Conv2d( 512, 256, 1, 1, 0)
self.latlayer3 = nn.Conv2d( 256, 256, 1, 1, 0)
#构建C2到C5
def _make_layer(self, planes, blocks, stride=1):
downsample = None
#如果步长不为1,进行下采样
if stride != 1 or self.inplanes != Bottleneck.expansion * planes:
downsample = nn.Sequential(
nn.Conv2d(self.inplanes, Bottleneck.expansion * planes, 1, stride, bias=False),
nn.BatchNorm2d(Bottleneck.expansion * planes)
)
layers = []
layers.append(Bottleneck(self.inplanes, planes, stride, downsample))
#更新输入输出层
self.inplanes = planes * Bottleneck.expansion
#根据block数量添加bottleneck的数量
for i in range(1, blocks):
layers.append(Bottleneck(self.inplanes, planes))
return nn.Sequential(*layers
#自上而下上采样
def _upsample_add(self, x, y):
_,_,H,W = y.shape
#逐个元素相加
return F.upsample(x, size=(H,W), mode='bilinear') + y
def forward(self, x):
#自下而上
c1 = self.maxpool(self.relu(self.bn1(self.conv1(x))))
c2 = self.layer1(c1)
c3 = self.layer2(c2)
c4 = self.layer3(c3)
c5 = self.layer4(c4)
#自上而下,横向连接
p5 = self.toplayer(c5)
p4 = self._upsample_add(p5, self.latlayer1(c4))
p3 = self._upsample_add(p4, self.latlayer2(c3))
p2 = self._upsample_add(p3, self.latlayer3(c2))
#卷积融合,平滑处理
p4 = self.smooth1(p4)
p3 = self.smooth2(p3)
p2 = self.smooth3(p2)
return p2, p3, p4, p5