（四十三）论文阅读 | 目标检测之i-FPN

最新推荐文章于 2023-05-17 10:47:57 发布

zhangts20

最新推荐文章于 2023-05-17 10:47:57 发布

阅读量771

点赞数 1

分类专栏：论文阅读文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/Skies_/article/details/112061336

版权

论文阅读专栏收录该内容

54 篇文章 32 订阅

订阅专栏

简介

在这里插入图片描述

图1：论文原文

该篇论文是对经典多尺度目标检测模型 ${\rm FPN}$ 的改进，提出一种隐式特征金字塔网络，实验结果为在多种目标检测模型上均有较大幅度的提升。论文原文

0. Abstract

当前，许多 ${\rm FPN}$ 通过堆叠多尺度模块以获得更大的感受野。基于深度均衡模型（ ${\rm DEQ}$ ），作者提出引入隐函数对 ${\rm FPN}$ 进行建模，同时使用类似残差的迭代结构更新隐态。

论文贡献：（一）提出隐式金字塔结构 ${\rm i}$ - ${\rm FPN}$ ；（二）引入类似残差模块以有效更新隐态，非线性转换器将提高模型的非线性拟合能力；（三）相比于 ${\rm FPN}$ ， ${\rm i}$ - ${\rm FPN}$ 在众多检测器上均获得了较大的提升。

1. Introduction

基于卷积神经网络的目标检测由三部分组成： ${\rm backbone}$ ， ${\rm neck}$ 和 ${\rm head}$ 。 ${\rm backbone}$ 用于提取输入图像的基本特征； ${\rm neck}$ 用于提取输入图像的高层语义特征； ${\rm head}$ 的输出作为检测头的输入，用于最后的分类和回归。

对于 ${\rm neck}$ 部分，大多数模型都是基于 ${\rm FPN}$ 设计的，其设计遵从显式地堆叠多尺度模块的原则，如图：
在这里插入图片描述
${\rm FPN}$ 通过一条自上而下的路径融合特征图， ${\rm PAFPN}$ 额外添加一条自下而上的路径将低层语义信息送往高层， ${\rm NAS}$ - ${\rm FPN}$ 基于神经架构搜索得到优化的连接拓扑结构， ${\rm EfficientDet}$ 堆叠 ${\rm PAFPN}$ 的结构并添加双向连接。总之，显式结构可用以下式子表示： $P=(f_{\theta}^0\circ f_{\theta}^1\cdots f_{\theta}^T)(B)\tag{1}$

尽管可以通过以上方法提高模型性能，但并没有增大感受野，同也会增加参数和内存占用。如在 ${\rm EfficientDet}$ 中堆叠七个权重独立的 ${\rm BiFPN}$ 结构，一种减少参数的方法是共享每个模块中的权重。但当无限制堆叠权重共享的模块时，这些模块会收敛到一个固定点，这在机器翻译和序列模型中已得到验证。假设固定点存在，表示为： $P^*=F_{\theta}(P^*;B)\tag{2}$

作者将求解该固定点的结构称为隐式 ${\rm FPN}$ 。该问题存在两种解法：将权重共享的模块展开，但同时会增加内存占用；黑盒求解方法。后者具有两个优势：它模拟了无限堆叠模块的情景，但仅含有单个模块的参数；它会产生较大的感受野。

${\rm DEQ}$ 中输入序列与隐藏序列以复杂的方式交互，这种交互可能导致梯度消失或难以解决寻找固定点的问题，论文提出一种类似残差的迭代结构来简化设计。将骨干网络的输出特征与原始金字塔特征直接相加，并将求和特征输入到非线性变换中。得益于残差结构，模型能够平稳地传播梯度，从而增强 ${\rm i}$ - ${\rm FPN}$ 的特征。

2. Related Work

Object Detection

Pyramidal Representations 除以上提到的 ${\rm FPN}$ 的变种外， ${\rm CBNet}$ 复合多个主干网络形成新的主干网络。以上方法均为显式地堆叠模块的方法，即重复使用相同或相似的模块以增强模型提取特征的能力。

Implicit Modeling ${\rm RBP}$ 基于微分技术隐式地训练递归系统；神经 ${\rm ODE}$ 采用黑盒 ${\rm ODE}$ 的方法隐式地对递归残差块建模，用于分析递归神经网络的稳定性； ${\rm RellisNet}$ 以权重绑定的方式堆叠大量层； ${\rm DEQ}$ 通过定点迭代模拟无限深度的网络； ${\rm RAFT}$ 使用大量 ${\rm GRU}$ 模块来获得固定的流场；基于 ${\rm DEQ}$ ， ${\rm MDEQ}$ 设计了一个用于图像分类和图像分割的骨干网络。 ${\rm i}$ - ${\rm FPN}$ 与 ${\rm MDEQ}$ 的不同之处在于：多尺度骨干网络特征作为有效学习隐态的强先验信息；为了有效更新隐态信息以及避免梯度消失，引入类似残差的迭代结构； ${\rm i}$ - ${\rm FPN}$ 适用于目标检测任务，而 ${\rm MDEQ}$ 仅被用于图形分类任务。

3. Methods

3.1 Revisiting Deep Equilibrium Model

深度序列模型可以表示为： $h^{k+1}=f_{\theta}^k(h^k;x),\ k=0,1,2,...,L-1\tag{3}$

其中 $L$ 表示转换模块数量， $x$ 表示长度为 $T$ 的输入序列，隐态序列 $h^{k+1}$ 表示第 $k$ 个转换模块 $f_{\theta}^k$ 的输出。近来研究表明，在每个模块使用相同的转换仍能获得相当的结果，即： $f_{\theta}^k=f_{\theta}\tag{4}$

当不断堆叠权重共享的模块时，会收敛到一个固定点 $h^*$ ： $\lim_{k\rightarrow\infty}h^{k+1}=\lim_{k\rightarrow\infty}f_{\theta}(h^k;x)=f_{\theta}(h^*;x)=h^*\tag{5}$

因此， ${\rm DEQ}$ 提出直接计算该固定点 $h^*$ ： $h^*=f_{\theta}(h^*;x)\tag{6}$

该固定点对应于无限深网络的最终转换结果， ${\rm DEQ}$ 采用黑盒寻根的方法来寻找该固定点。理论上，任何黑盒寻根方法都可以在给定隐态 $h^0$ 的条件下寻找固定点。

3.2 Implicit Feature Pyramid Network

下图是 ${\rm i}$ - ${\rm FPN}$ 的整体结构：
在这里插入图片描述

图2：i-FPN

它由三部分组成，首先是提取特征的骨干网络，得到输出 $B=\{B_1,B_2,...,B_n\}$ ；然后是初始金字塔特征 $P=\{P^0_1,P^0_2,...,P_n^0\}$ ，初始化为零且直接与 $B$ 相加（即基础 ${\rm FPN}$ 结构）；然后得到特征 $Z=\{Z_1,Z_2,...,Z_n\}$ ，其作为非线性转换器 $G_{\theta}$ 的输入；最后使用平衡特征求解器得到特征金字塔 $P^*=\{P_1^*,P_2^*,...,P_n^*\}$ ，即隐式模型的解。

3.2.1 Residual-Like Iteration

在这里插入图片描述

图3：Residual-Like Iteration

${\rm i}$ - ${\rm FPN}$ 中引入类似残差的迭代结构，以模拟无限深度的- ${\rm FPN}$ 。首先，骨干网络的输出特征 $B$ 与初始特征 $P^0$ 相加，并将相加结果送入非线性转换器 $G_{\theta}$ 中，得到输出特征 $P^1$ 。然后特征 $P^1$ 与骨干网络的输出特征 $B$ 相加，从而得到后面的输出。当 $G_{\theta}$ 不断细化求和特征时，这一迭代过程将会带来越来越小的贡献，直到最终得到固定点 $P^*$ 。即： $P^*=G_{\theta}(P^*+B)\tag{7}$

这里，固定点 $P^*$ 可以通过展开求解器或 ${\rm DEQ}$ 中的 ${\rm Broyden}$ 求解器得到。

3.2.2 Nonlinear Transformation $G_{\theta}$

在这里插入图片描述

图4：各FPN连接方式

如图（c），鉴于特征仅与相邻层特征密切相关，作者引入金字塔卷积（SEPC），则最终非线性转换器可表示为： $O_i=\sum_{j=i-1}^{i+1}W_{ij}(R_j(Z_j))\tag{8}$

其中， $Z_j$ 表示第 $j$ 层的输入特征， $R_j$ 表示第 $j$ 层的残差模块。如果 $i = j$ ，则 $W_{ij}$ 表示 $3\times3$ 卷积；如果 $i < j$ ，则 $W_{ij}$ 表示先使用双线性上采样，再接 $3\times3$ 卷积。注意，变量 $j$ 的范围使得当前层输出特征仅来自相邻三个输入层。

3.3 Optimization

前面替代，对于根 $P^*$ 的求解可以采用展开法或者黑盒法，该部分介绍黑盒求解法。对于黑盒求解法， ${\rm i}$ - ${\rm FPN}$ 的优化过程包括前向过程和反向传播过程。给定非线性转换器 $G_{\theta}$ ，对于前向过程，式（7）给定了求解固定点的方法。然后，经由反向传播算法更新骨干网络和非线性转换器。

Forward Solving 论文采用 ${\rm DEQ}$ 中 ${\rm Broyden}$ 求解器的改进用于求解固定点： $Q_{\theta}=G_{\theta}(P+B)-P\tag{9}$

因此，当 $Q_{\theta}=0$ 时即可求得固定点，基于 ${\rm Broyden}$ 求解器的思想，该解为： $P^{i+1}=P^i-\alpha(J^{-1}_{Q_{\theta}}|_{P_i})Q_{\theta}(P^i+B);\ P^0=0\tag{10}$

其中， $J^{-1}_{G_{\theta}}$ 表示雅可比逆， $\alpha$ 表示步长大小。由于在目标检测中，输入通常是高维变量，雅可比逆难以求解，作者对其作如下改进： $P^{i+1}=P^i-\alpha\cdot M^iQ_{\theta}(P^i+B)\ P^0=0\tag{11}$

其中， $M^i$ 雅可比逆的近似低秩矩阵。（ ${\rm Broyden}$ 求解器的具体内容可参考论文1和2）。

Backward Propagation 不同于卷积神经网络中的反向传播使用链式法则，基于深度平衡模型，作者提出使用如下方法更新参数：
$\frac{\partial L}{\partial\theta}=\frac{\partial L}{\partial P^*}(-J^{-1}_{Q_{\theta}}|_{P^*})\frac{\partial G_{\theta}(P^*+B)}{\partial\theta}\tag{12}$

$\frac{\partial L}{\partial B}=\frac{\partial L}{\partial P^*}(-J^{-1}_{Q_{\theta}}|_{P^*})\frac{\partial G_{\theta}(P^*+B)}{\partial B}\tag{13}$

其中， $L$ 表示总损失函数，其计算如下： $L(p,y)=L(H(P^*),y)\tag{14}$

4. Experiments

在这里插入图片描述

图5：FPN和i-FPN的比较

在这里插入图片描述

图6：不同求解器的比较

在这里插入图片描述

图7：不同求解器的比较

图中 ${\rm RBL}$ 表示残差模块， ${\rm CSC}$ 表示多尺度连接。

在这里插入图片描述

图8：Main Results

5. Limitation and Future Work

作者指出，尽管 ${\rm i}$ - ${\rm FPN}$ 可以有效提高目标检测模型的性能，但其仍具有以下不足：展开求解法将引入大量参数和占据大量内存；对于 ${\rm Broyden}$ 求解法，使用十五个 ${\rm Broyden}$ 迭代后得到平衡特征金字塔。因此，尽管其占用内存仅考虑单个模块，它花费的时间是显式金字塔的六倍。今后，亟需寻找一种更优的求解器。