FPN的pytorch代码实现

论文地址:Feature Pyramid Networks for Object Detection

项目地址:FPN_pytorch

0x00 前言

我们在做目标检测和超分辨率重建等问题的时候,我们一般是对同一个尺寸的图片进行网络训练。我们希望我们的网络能够适应更多尺寸的图片,我们传统的做法使用图像金字塔,但是这种做法从侧面提升了计算的复杂度,我们希望可以改善这个问题,所以本文就提出了一种在特征图金字塔的方法,我们称这种网络结构叫做FPN

0x01 论文分析



传统的图像金字塔任务是将不同尺度的图片进行特征提取(图a),主要使用人工提取特征,在人工提取特征的时代,大量使用特征化图像金字塔。它们非常重要,以至于像DPM这样的物体检测器需要密集的比例采样才能获得好的结果。但是这种做法变相的增加了训练数据,提高了运算耗时,所以这种做法已经很少被使用。

对于识别任务,工程特征已经被深度卷积网络(ConvNets)计算的特征大部分所取代。除了能够表示更高级别的语义,ConvNets不同层的特征图尺度也不同,从而有助于从单一输入尺度上计算的特征识别(图b)。但是这种做法的缺陷在于只使用了高分辨率特征,因为不同层之间的语义差别很大,最后一层主要都是高分辨率的特征,所以对于低分辨率的特征表现力不足。

接着为了改善上面的做法,一个很简洁的改进就是对不同尺度的特征图都进行利用,这也是SSD算法中使用的方法(图c)。理想情况下,SSD风格的金字塔将重复使用正向传递中计算的不同层次的多尺度特征图。但为了避免使用低层次特征,SSD会从偏后的conv4_3开始构建特征金字塔,这种做法没有对conv4_3之前的层进行利用,而这些层对于检测小目标很重要。



本文提出一种新的做法(图d),通过高层特征进行上采样和低层特征进行自顶向下的连接,而且每一层都会进行预测。

0x02 网络结构

作者这里做了一个有意思的比较。如果我们不是对不同尺寸的特征图进行预测,而是将不同尺寸的特征图融合后进行预测,会怎么样呢?



作者通过实验发现后者做法(也就是本文的做法)结果上会好很多。



上图中的(f only finest level)就上通过不同尺度特征图融合后,只采用最后一层预测的结果。(d bottom-up pyramid)表示没有采用自顶向下的过程得到的结果。

作者的主网络是使用的ResNet,而特征图金字塔分成三个部分,一个自底向上的路径(左边),一个自顶向下的路径(右边)和中间的连接部分。



自底向上的路径:自下而上的路径是卷积网络的前馈计算,该算法计算由不同比例的特征映射组成的特征层级,其缩放步长为2。通常有许多层产生相同大小的输出映射,并且我们说这些层 处于相同的网络阶段。 对于我们的特征图金字塔,为每个阶段定义一个金字塔等级, 然后选择每个阶段的最后一层的输出作为我们特征图的参考集。 这种选择是自然的,因为每个阶段的最深层应具有最强的特征。
具体而言,对于ResNets,我们使用每个阶段的最后一个residual block输出的特征激活输出。 对于conv2conv3conv4conv5输出,我们将这些最后residual block的输出表示为{C2,C3,C4,C5},并且它们相对于输入图像具有{4, 8, 16, 32} 的步长。 由于其庞大的内存占用,我们不会将conv1纳入金字塔中。

自顶向下的路径:自顶向下的路径通过对在空间上更抽象但语义更强高层特征图进行上采样来幻化高分辨率的特征。随后通过侧向连接从底向上的路径,使得高层特征得到增强。每个横向连接自底向上路径和自顶向下路径的特征图具有相同的尺寸。将低分辨率的特征图做2倍上采样(为了简单起见,使用最近邻上采样)。然后通过按元素相加,将上采样映射与相应的自底而上映射合并。这个过程是迭代的,直到生成最终的分辨率图。
为了开始迭代,我们只需在C5上附加一个1×1卷积层来生成低分辨率图P5。最后,我们在每个合并的图上附加一个3×3卷积来生成最终的特征映射,这是为了减少上采样的混叠效应。这个最终的特征映射集称为{P2,P3,P4,P5},分别对应于{C2,C3,C4,C5},它们具有相同的尺寸。
由于金字塔的所有层次都像传统的特征化图像金字塔一样使用共享分类器/回归器,因此我们在所有特征图中固定特征维度(通道数,记为d)。我们在本文中设置d = 256,因此所有额外的卷积层都有256个通道的输出。



中间连接:采用1×1的卷积核进行连接(减少特征图数量)。

0x03 网络的具体实现

我们这里参考了pytorchresnet的设计,关于resent的设计可以参看这篇ResNet理论基础与具体实现(详细教程)

class FPN(nn.Module):
    def __init__(self, block, layers):
        super(FPN, self).__init__()
        self.inplanes = 64

        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)

        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        # Bottom-up layers
        self.layer1 = self._make_layer(block,  64, layers[0])
        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)
        self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
        self.layer4 = self._make_layer(block, 512, layers[3], stride=2)

        # Top layer
        self.toplayer = nn.Conv2d(2048, 256, kernel_size=1, stride=1, padding=0)  # Reduce channels

        # Smooth layers
        self.smooth1 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)
        self.smooth2 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)
        self.smooth3 = nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1)

        # Lateral layers
        self.latlayer1 = nn.Conv2d(1024, 256, kernel_size=1, stride=1, padding=0)
        self.latlayer2 = nn.Conv2d( 512, 256, kernel_size=1, stride=1, padding=0)
        self.latlayer3 = nn.Conv2d( 256, 256, kernel_size=1, stride=1, padding=0)

        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
                m.weight.data.normal_(0, math.sqrt(2. / n))
            elif isinstance(m, nn.BatchNorm2d):
                m.weight.data.fill_(1)
                m.bias.data.zero_()

    def _make_layer(self, block, planes, blocks, stride=1):
        downsample  = None
        if stride != 1 or self.inplanes != block.expansion * planes:
            downsample  = nn.Sequential(
                nn.Conv2d(self.inplanes, block.expansion * planes, kernel_size=1, stride=stride, bias=False),
                nn.BatchNorm2d(block.expansion * planes)
            )
        layers = []
        layers.append(block(self.inplanes, planes, stride, downsample))
        self.inplanes = planes * block.expansion
        for i in range(1, blocks):
            layers.append(block(self.inplanes, planes))

        return nn.Sequential(*layers)


    def _upsample_add(self, x, y):
        _,_,H,W = y.size()
        return F.upsample(x, size=(H,W), mode='bilinear') + y

    def forward(self, x):
        # Bottom-up
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        c1 = self.maxpool(x)

        c2 = self.layer1(c1)
        c3 = self.layer2(c2)
        c4 = self.layer3(c3)
        c5 = self.layer4(c4)
        # Top-down
        p5 = self.toplayer(c5)
        p4 = self._upsample_add(p5, self.latlayer1(c4))
        p3 = self._upsample_add(p4, self.latlayer2(c3))
        p2 = self._upsample_add(p3, self.latlayer3(c2))
        # Smooth
        p4 = self.smooth1(p4)
        p3 = self.smooth2(p3)
        p2 = self.smooth3(p2)
        return p2, p3, p4, p5
  
  
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78

关于FPN的全部代码在这里:FPN_pytorch

如有任何问题,希望大家指出!!!

  • 5
    点赞
  • 33
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
### 回答1: yolov5代码包含多个py文件,每个文件都有不同的作用,以下是各个py文件的详解: 1. models/yolo.py:定义了YOLOv5模型的网络结构,包括骨干网络、FPN、head等。 2. models/common.py:定义了一些常用的函数和类,如Conv、Bottleneck、Focus等。 3. models/experimental.py:定义了一些实验性的模型,如CSPDarknet53、CSPResNeXt50等。 4. models/yolo_layers.py:定义了YOLOv5模型中用到的一些层,如YOLOLayer、Detect等。 5. utils/datasets.py:定义了数据集的读取和处理方式,包括COCO、VOC、ImageNet等。 6. utils/general.py:定义了一些通用的函数和类,如计算AP、计算IOU等。 7. utils/google_utils.py:定义了一些与Google相关的函数和类,如下载Google Drive上的文件等。 8. utils/torch_utils.py:定义了一些与PyTorch相关的函数和类,如计算模型参数量、保存和加载模型等。 9. utils/autoanchor.py:定义了自适应anchor的计算方式。 10. train.py:训练YOLOv5模型的主程序。 11. detect.py:使用YOLOv5模型进行目标检测的主程序。 12. test.py:测试YOLOv5模型性能的主程序。 13. export.py:将PyTorch模型导出为ONNX或TFLite格式的程序。 14. hubconf.py:定义了使用hub方式调用YOLOv5模型的接口。 以上是YOLOv5代码中各个py文件的作用。 ### 回答2: YoloV5是一个用Python实现的物体检测框架,这个框架的能力超过了目前所有先前的版本,包含多个模型以及各种性能优化。以下是YoloV5框架中几个重要的Python文件的详细解释: 1. models/yolo.py:此文件包含的类定义了网络模型的架构,其中包含骨干网络(backbone)、特征层和检测头等部分。这个文件包含的类还定义了前向传递和损失函数。 2. utils/general.py:此文件定义了一系列用于数据加载、预处理、随机裁剪、调整大小等的实用函数。 3. datasets/dataset.py:该文件包含用于定义训练和验证数据集的代码。此代码在运行中负责加载、预处理和存储图像、标签和元数据。 4. utils/loss.py:该文件包含定义损失函数的代码。这个文件包含的类根据训练数据计算网络预测和标签之间的误差。 5. utils/metrics.py:这个文件包含训练和验证网络效果的度量函数。这些函数根据标签和模型输出来计算精度和召回率等度量指标。 6. train.py:用于训练模型的脚本。该脚本负责处理超参数、模型初始化、数据加载和计算损失等。在训练过程中,模型的权重会被定期保存到磁盘上,以便后续使用。 7. test.py:用于评估模型性能的脚本。该脚本负责加载保存的模型权重,并使用验证数据评估网络效果。 总的来说,YoloV5的各个Python文件都起到了重要的作用,这些文件与物体检测有关的代码被统一分散在各个文件之中,使得整个框架结构清晰明了,使用方便。 ### 回答3: YOLOv5是一种先进的目标检测框架,由ultralytics开发和维护,它具有高效、准确、轻量级等特点。YOLOv5的基本实现原理是将图像分为若干个网格,每个网格预测一组边界框,通过置信度判断哪些框能够包含目标物体。本篇文章将对YOLOv5的代码进行详解,介绍各个py文件的作用。 1. train.py:该文件是YOLOv5进行训练的主程序,实现了模型训练、数据加载、模型保存、验证数据集等功能。当使用该文件训练模型时,需要指定超参数、数据集、模型结构、训练及验证的数据集等。 2. detect.py:该文件是YOLOv5进行目标检测的主程序,实现了目标检测、输出结果、绘制框等功能。当使用该文件进行目标检测时,需要指定模型、输入图片、误差阈值等参数。 3. models/yolov5s.py:该文件定义了YOLOv5的模型结构,主要分为骨干网络、头部网络和输出层三部分。骨干网络采用CSPNet结构,头部网络由一系列的卷积层和连接层组成,输出层由三个分支组成,分别输出置信度、边界框和类别分数。 4. models/yolo_head.py:该文件定义了YOLOv5中头部网络的构建,包括卷积层、上采样层、连接层、预测层等。 5. models/yolo.py:该文件定义了YOLOv5中的检测函数,实现了网络前向传播算法,并在输出层进行后处理生成最终结果。 6. utils/torch_utils.py:该文件是一个工具类,主要实现了模型的加载、转化、保存等功能。 7. utils/datasets.py:该文件定义了YOLOv5的数据预处理方式和数据加载方式,其中包括了对数据标签进行处理,以及图像的增强等操作。 8. utils/general.py:该文件定义了各个函数的通用工具类,例如图像处理、计算IoU、绘制边界框等等。 总之,YOLOv5的代码文件中各个部分相互配合,实现高效、准确的目标检测算法。以上为各个文件的简要作用,更好地了解代码细节需要阅读具体代码进行深入学习。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值