论文阅读笔记之——《FishNet: A Versatile Backbone for Image, Region, and Pixel Level Prediction》

本文链接：https://blog.csdn.net/gwplovekimi/article/details/90695729

本文是对欧阳老师论文的阅读笔记。论文指出图像级网络随深度增加分辨率降低，不适用于区域或像素级任务。为此作者设计了FishNet网络，能保留所有分辨率信息并细化，解决梯度传播问题，还设计了特征保留和细化机制，实验证明其性能卓越。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是对欧阳老师的paper的阅读笔记

先给出论文的地址http://papers.nips.cc/paper/7356-fishnet-a-versatile-backbone-for-image-region-and-pixel-level-prediction.pdf

论文代码https://github.com/kevin-ssy/FishNet

论文讨论的问题就是：对于区域或者pixel方面的任务，高分辨率是有效的。而对于image level的网络（比如object detection或者分类网络或者是由这些网络来pertrain的），却会随着网络深度的增加，分辨率变低，进而使得这样的网络不适用于区域或pixel level的任务。而本文要解决的，就是让这种image level的网络也可以保留高分辨率的信息，进而用于region和piexel level上

abstract

设计用于预测不同级别（例如image-level图像级，region-level区域级和pixellevel像素级）上的目标的卷积神经网络（CNN）结构的基本原理是不同的。通常，专门用于图像分类的网络结构直接用作检测和分割等其他任务的默认骨干结构，但是考虑统一为像素级或区域级预测任务设计的情况下设计的骨干结构很少，这可能需要具有高分辨率的非常深的特征。为实现这一目标，作者设计了一个名为FishNet的网络。在FishNet中，所有分辨率的信息都会保留并针对最终任务进行细化。此外，作者观察到现有的工作仍然不能直接将梯度信息从深层传播到浅层（existing works still cannot directly propagate the gradient information from deep layers to shallow layers）。该设计可以更好地解决这个问题。已经进行了大量实验来证明FishNet的卓越性能。特别是在ImageNet-1k上，FishNet的精度能够以更少的参数超越DenseNet和ResNet的性能。FishNet被用作COCO Detection 2018挑战赛获奖作品中的一个模块。

introduction

Networks for image classification use consecutive down-sampling to obtain deep features of low resolution. However, the features with low resolution are not suitable for pixel-level or even region-level tasks（低分辨率的feature不适用于pixel级别于区域级别的任务）.

Direct use of high-resolution shallow features for region and pixel-level tasks however, does not work well.（直接使用高分辨率浅层的特征来作为区域与pixel任务效果也不好）

In order to obtain deeper features with high resolution, the well-known network structures for pixel-level tasks use U-Net or hourglass-like networks。也有采用up sample获取深层高分辨率的特征

motivated by 在region 层面和pixel层面上的任务，成功利用高分辨率的特征，作者提出了fishNet，使高分辨率的部分能够包含高级语义信息。

本文结构主要由以下的三个优势：

1、这是第一个统一为像素级、区域级、图像级任务设计的骨干网络。相较于纯粹为图像分类任务设计的网络，FishNet对于像素级和区域级任务而言更为有效。

2、它能够将梯度从非常深的层直接传播到较浅的层，这在文章中称为直接BP（direct BP）。最近的工作表明，有两种设计可以实现直接BP，residual block残余块和concatenation串联的恒等映射。然而，不言而喻的事实（unfold fact）是现有的网络设计，例如，ResNet和DenseNet等仍然不能够直接BP。此问题是由不同分辨率特征之间的卷积层引起的。如图1所示，ResNet利用skip connection上的带步幅的卷积层来处理输入和输出通道数量或分辨率的不一致，这使得恒等映射不适用。没有恒等映射或连接的卷积会降低从输出到浅层的梯度。

文章的设计通过将不同深度的特征concatenating（级联）到最终输出来更好地解决了这个问题。作者还仔细设计网络中的组件以确保直接BP。通过这些的设计，特征的语义信息也在整个网络中得以保留（更多信息的保留才能让信息更有效的被利用？上图注意看channel数目的变化。channel要一致才可以相加）。

3、来自不同深度的特征被保留，并且用来互相精炼refining。不同深度的特征有着对于图像内容的不同抽象程度，应该保留所有这些以改善特征的多样性。由于它们的互补性，它们可以用于相互细化（从而使得特征更加有效地被利用）。因此，文章设计了一种特征的保留和细化机制来实现这一目标。（Features with different depth have different levels of abstraction of the image. All of them should be kept to improve the diversity of features. Because of their complementarity, they can be used for refining each other.）

文章设计的一个可能违反直觉的效果是它在参数数量和图像分类精度之间的权衡中比传统的卷积网络表现更好。原因如下：

1、保留和细化的特征相互补充，比设计宽度或深度更大的网络更有用；

2、利用了（促进了）直接BP。实验结果表明，紧凑型FishNet-150，其参数数量接近ResNet-50：能够超越ImageNet-1k上的ResNet-101和DenseNet-161（k = 48）的精度。对于区域和像素级任务，如对象检测和实例分割，我们的模型作为Mask R-CNN的主干，与基线ResNet50相比，MS COCO上的绝对AP分别提高了2.8％和2.3％。

related work

Identity Mappings in Deep Residual Networks and Isolated Convolution

ResNet中的基础单元，residual block，可以用下式表示：

We consider the stack of all residual blocks for the same resolution as a stage（文中，把相同分辨率的所有剩余块的堆栈作为一个stage）.

Gradient propagation problem from Isolated convolution (I-conv)

（孤立卷积的梯度传播问题）

所谓的孤立卷积就是公式3那样的，没有标识映射或级联（without identity mapping or concatenation）。it is desirable to have the gradients from a deep layer directly transmitted to shallow layers. Residual blocks with identity mapping和dense block with concatenation有助于这种直接梯度传播。如果存在孤立卷积，深层的梯度是不可以直接传到浅层的，

FishNet

上图为fishnet的结构，整个网络分为了三个部分，tail，body，head

tail是现有的CNN，例如ResNet，随着网络的深入，特征分辨率逐渐减小。with the resolution of features becoming smaller as the CNN goes deeper.
body则是有着数个上采样和细化块（refining blocks）的结构，主要用来细化来自tail和body的特征。The fish body has several up-sampling and refining blocks for refining features from the tail and the body.
head则是有着数个下采样和细化块的结构，用来保留和细化来自tail，body和head的特征。最后一个卷积层的细化特征被用来应对最终的任务。The fish head has several down-sampling and refining blocks for preserving and refining features from the tail, body and head. The refined features at the last convolutional layer of the head are used for the final task.

本文中的”阶段“（stage）是指由具有相同分辨率的特征馈送的一堆卷积块。根据输出特征的分辨率，FishNet中的每个部分可以分为几个阶段。随着分辨率变小，阶段ID变得更高

本文中的”阶段“（stage）是指由具有相同分辨率的特征馈送的一堆卷积块。根据输出特征的分辨率，FishNet中的每个部分可以分为几个阶段。随着分辨率变小，阶段ID变得更高。例如，输出分辨率为56x56和28x28的块分别位于FishNet的所有三个部分的第1和第2阶段。因此，在鱼尾和头部，阶段ID在前向传播时变得更高，而在身体部分中ID越来越小。

图3显示了两个阶段特征的尾部，身体和头部之间的相互作用。

图3a中的tail可被视为残差网络。tail的特征经历（undergo）几个残余块并且还通过水平箭头传递到body。
图3a中的body通过concatenation保留了来自尾部的特征和body前一stage的特征。然后，这些连接的特征将被上采样并细化，细节如b中所示。细化的特征会用作head以及下一个body的stage
对于head会保存以及细化来自body以及之前head的stage的所有特征。head中的信息传递方式可见c。
在tail，body，head的水平连接表示之间的传递块。在图3a中，使用残差块作为传输块。