FPT：又是借鉴Transformer！这次多方向融合特征金字塔 | ECCV 2020

最新推荐文章于 2024-05-11 17:00:54 发布

Amusi（CVer）

最新推荐文章于 2024-05-11 17:00:54 发布

阅读量3.5k

点赞数 5

文章标签：算法人工智能计算机视觉机器学习深度学习

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

本文转载自：晓飞的算法工程笔记

论文提出用于特征金字塔的高效特征交互方法FPT，包含3种精心设计的特征增强操作，分别用于借鉴层内特征进行增强、借鉴高层特征进行增强以及借鉴低层特征进行增强，FPT的输出维度与输入一致，能够自由嵌入到各种包含特征金字塔的检测算法中，从实验结果来看，效果不错

论文: Feature Pyramid Transformer

论文地址：https://arxiv.org/abs/2007.09451
论文代码：https://github.com/ZHANGDONG-NJUST/FPT

Introduction

讲论文前先捋一下CNN网络结构相关的知识，论文的思想主要来自两个，一个是特征金字塔结构，一个是Non-local网络：

首先是特征金字塔，如图1a，CNN网络以层级结构的形式逐层提取更丰富的特征，然后使用最后的特征层进行预测。但对于一些小物体而言，最后一层的特征图往往没有足够的像素点进行预测。为了更好地对不同大小的物体进行预测，人们提出图1b的金字塔特征，大物体使用高层的粗粒度特征，小物体使用底层的细粒度特征。对于一些pixel-level任务，比如语义分割，需要综合不同层的上下文信息进行细致的预测，所以就需要图1c的预测结构。
其次是Non-local network，该网络借鉴了NLP模型的Self-attention思想，如图1d所示，能够借鉴特征图上的其它特征点来对当前特征点进行增强。

基于上面两个思想，论文提出了FPT(Feature Pyramid Transformer)，结构如图1e所示，核心在特征金字塔上进行类似Non-local的特征增强，然后再使用多层特征进行预测。FPT设计了3种特征增强操作，也是论文的主要贡献：

ST(Self-Transformer)：跟non-local操作一样在对当前层进行特征增强。
GT(Grounding Transformer)：这是top-down形式的non-local操作，将高层特征(尺寸小的)分别用于低层特征的增强。
RT(Rendering Transformer)：这是bottom-up形式的non-local操作，将低层特征(尺寸大的)分别用于高层特征的增强。

Feature Pyramid Transformer

FPT的特征转换流程如图2所示，输入为金字塔特征，首先对每层特征分别进行ST、GT、RT特征增强得到多个增强后的特征，然后对增强的特征按尺寸进行排序，将相同大小的特征concate到一起，通过卷积将增强后的特征维度恢复到输入时的相同维度。

Non-Local Interaction Revisited

由于论文提出的特征增强操作与non-local操作有很大关系，这里需要先介绍下non-local的思想。常规non-local操作的输入为单特征图上的queries(Q), keys(K)和values(V)，输出与尺寸相同的增强特征：

，，，、和为对应的线性变换，和为特征图上的第和位置上的特征，为相似度函数，默认为点积，为归一化函数，默认为softmax，为权重集成函数，默认为矩阵相乘，为输出特征图的第位置上的特征。

Self-Transformer

ST为改进版non-local操作，如图1a所示，主要有两点不同：

将和分为部分，然后计算每部分的每组和相似度分数
相似度计算使用改进的MoS(Mixture of Softmaxes)函数：为特征集成时的权重，为可学习的线性变换，为所有的均值。

基于上述的改进，ST定义为：

Grounding Transformer

GT是top-down形式的non-local操作，如图2c所示，借用高层的粗粒度特征来增强低层的细粒度特征。在计算时，相似度计算由点积替换为更高效的欧氏距离：

，。GT跟ST一样将和分为部分，完整的定义为：

在特征金字塔中，高低层特征分别包含图片的全局和局部信息，而对于语义分割任务，不需要关注过多高层的全局信息，更多的是需要query位置附近的上下文信息，所以图3b的跨层卷积对语义分割任务十分有效。由于GT操作是全局计算，所以论文提出了局部约束(Locality-constrained)的GT操作LGT，如图3c所示，每个只与高层局部区域的和进行计算。高层局部区域以对应的位置为中心，边长(square size)为固定值。如果高层的局部区域越出了特征图，则使用0代替。

Rendering Transformer

与GT相反，RT是bottom-up形式的non-local操作，借用低层的细粒度特征来增强高层的粗粒度特征。RT也是局部约束(Locality-constrained)的，以channel-wise进行计算的，定义高层特征为，低层特征为和，计算步骤包含如下：

对和进行全局平均池化得到权重。
使用权重对进行加权得到。
对进行带stride的卷积下采样得到。
使用卷积对进行调整，并与相加，再过一层卷积后输出。

完整RT的定义为：

为外积函数，为带stride的卷积，为用于调整的卷积，为包含卷积的特征相加函数。

Experiments

在COCO上与其它算法的对比实验。

在多个数据集上的进行语义分割性能对比。

Conclusion

论文提出用于特征金字塔的高效特征交互方法FPT，包含3种精心设计的特征增强操作，分别用于借鉴层内特征进行增强、借鉴高层特征进行增强以及借鉴低层特征进行增强，FPT的输出维度与输入一致，能够自由嵌入到各种包含特征金字塔的检测算法中，从实验结果来看，效果不错。

论文和代码下载

后台回复：FPT，即可下载上述论文PDF和源代码！

下载2

后台回复：CVPR2020，即可下载代码开源的论文合集

后台回复：ECCV2020，即可下载代码开源的论文合集

后台回复：YOLO，即可下载YOLOv4论文和代码

重磅！CVer-论文写作与投稿交流群成立

扫码添加CVer助手，可申请加入CVer-论文写作与投稿 微信交流群，目前已满2400+人，旨在交流顶会（CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等）、顶刊（IJCV/TPAMI/TIP等）、SCI、EI、中文核心等写作与投稿事宜。

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如论文写作+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加微信群

▲长按关注CVer公众号

整理不易，请给CVer点赞和在看！

Amusi（CVer）

关注

5
点赞
踩
17

收藏

觉得还不错? 一键收藏
2
评论
FPT：又是借鉴Transformer！这次多方向融合特征金字塔 | ECCV 2020

点击上方“CVer”，选择加"星标"置顶重磅干货，第一时间送达本文转载自：晓飞的算法工程笔记论文提出用于特征金字塔的高效特征交互方法FPT，包含3种精心设计的特征增强操作...
复制链接

扫一扫