近期调研

yizhi_hao

已于 2022-06-12 12:02:38 修改

阅读量3.2k

点赞数 2

分类专栏：深度学习 transformer 文章标签：深度学习计算机视觉人工智能

于 2022-06-10 17:24:02 首次发布

本文链接：https://blog.csdn.net/qq_41533576/article/details/125221720

版权

深度学习同时被 2 个专栏收录

16 篇文章

订阅专栏

transformer

4 篇文章

订阅专栏

近期论文阅读重点放在视觉领域中卷积与TRM结合的工作。
这些工作的主要动机有两点：

卷积操作的局部性阻碍对全局特征的捕获
TRM的self-attention机制用于长距离信息捕获已经被证明是一种很好的范式，但是其仍然存在一些问题，将在下文具体阐述。

[ICCV 2019] Attention Augmented Convolutional Networks

动机

卷积只对局部邻域运算，会丢失全局信息。

贡献

提出了Attention Augmentation method（注意增强方法），利用self-attention机制来增强卷积算子。将强调局部性的卷积特征映射与能够对较长范围的相关进行建模的self-attention特征映射连接起来。

方法

方法偏重与理论推导而非模型改变，但是具有很强的可借鉴意义。
可参考：Attention Augmented Convolutional Networks 笔记

[ICCV 2021] Conformer: Local Features Coupling Global Representations for Visual Recognition

动机

卷积难以捕捉global feature，self-attention机制可以捕捉长距离的特征信息，但会模糊前景和弱化局部信息。

贡献

提出双主干网络Conformer，最大程度上获取local和global feature
提出特征耦合单元FCU，以一种交互性的方式将两路网络获取的特征融合

方法

Conformer

卷积分支 CNN Branch
卷积分支使用ResNet结构
TRM分支 Transformer Branch
TRM分支使用ViT结构
特征融合模块FCU Feature Coupling Unit（重点）
除第一个Bottleneck外，每一个Bottleneck的3×3 conv输出的特征图进入到TRM分支进行feature fusion，FCU使用1×1卷积调整channel，使用down/up sampling调整H和W，BN和LN用于调整feature value，FCU被嵌入到网络的每个block中，更好地消除两种机制feature的语义差异。

[ICLR 2022] UniFormer: Unifying Convolution and Self-attention for Visual Recognition

动机

单一的CNN和TRM均不能解决当前视觉领域存在的问题，并且作者观察到，在浅层网络，即使通过self-attention计算全局的相似度实际关注的仍为相邻时空区域的关系。
即以往的ViT虽然使用全局的attention计算，但最终学习的多数仍是局部表征，造成大量冗余的计算。

贡献

基于以上的观察，作者提供了将CNN和TRM结合的全新结构

浅层网络仅关注有限窗口的信息(CNN模式)，深层网络关注整体信息，全局信息聚合(TRM模式)
将convolution和self-attention统一于token关系的学习中，模型兼顾两种范式的长处

方法

模型整体借鉴CNN层次化设计，每层包含多个Transformer风格的UniFormer block。

每个UniFormer block主要由三部分组成，动态位置编码DPE、多头关系聚合器MHRA）及Transformer必备的前馈层FFN，其中最关键的为多头关系聚合器。

MHRA 多头关系聚合：

与多头注意力相似，Uniformer将关系聚合器设计为多头风格，每个头单独处理一组channel的信息，每组的channel先通过线性变换生成上下文token $V_n(X)$ ，然后在token affinity $A_n$ 的作用下，对上下文信息进行聚合。这里设计两种MHRA

local MHRA：
local MHRA用于浅层网络，在网络的浅层（前两阶段），token affinity应该仅关注局部邻域上下文，这与convolution的设计是一样的，因而将局部关系聚合 $A_n^{local}$ 设计为可学习的参数矩阵，且token affinity的值只与相对位置有关。

其中 $X_i$ 为anchor token， $X_j$ 为局部邻域中的任一token， $a_n$ 为可学参数矩阵， $(i - j)$ 为二者相对位置，表明token affinity的值只与相对位置有关。
local UniFormer block与MobileNet block的风格相似，都是PWConv-DWConv-PWConv（见原论文解析），不同的是引入了额外的位置编码以及前馈层，这种特别的结合形式有效地增强了token的特征表达。
global MHRA
global MHRA用于深层网络，在网络的深层（后两阶段），对整个特征空间建立长时关系，这与self-attention的思想一致，因此通过比较全局上下文相似度建立token affinity

其中 $Q_n(.),K_n(.)$ 为不同的线性变换。

DPE 动态位置编码映射

使用卷积位置编码设计动态位置编码
在这里插入图片描述
DWConv为零填充的的深度可分离卷积。
一方面，卷积对任何输入形式都很友好，也很容易拓展到空间维度统一编码时空位置信息。另一方面，深度可分离卷积十分轻量，额外的零填充可以帮助每个token确定自己的绝对位置。

FFN 前馈神经网络

在这里插入图片描述
FFN无特别设计，组合了两个线性层和一个GELU激活函数。

总结：当前Video Transformer模型的主流改进方式

限制注意力关注区域，只关注部分时空位置【TimeSformer】
按照时空维度分解注意力计算过程【ViViT】；
引入卷积的归纳偏置，通过局部堆叠Encoder，将注意力集中在较小的邻域内【Swin TRM】；
以提取后的特征而非原始视频帧像素为输入，排除无用的信息，减少计算量【Uniformer】。

SPL模板写作分析

SPL全称IEEE Signal Processing Letters，篇幅较小，期刊要求4页正文，1页参文共五页**（双栏）**。
SPL全篇共有一下几部分

摘要

Abstract：按顺序为：简要介绍任务、动机、模型、设计模块、数据集，篇幅第一页左侧栏二分之一；

正文

Introduction：与其他会议不同，SPL的Introduction实际是Intro+Related Works，尤其注意篇幅长度，相关工作篇幅应占据单栏一栏左右，其段落划分与书写顺序为：任务介绍意义（一段）、相关工作介绍（两段）、动机发现与模型概括（一段）、总结贡献与模型表现（一段）。Intro结束，篇幅应到达第二页左栏二分之一处（包括图1）；
Proposed Method（重点）：详细介绍模型和设计的模块。总结Intro中的相关工作，再次强调动机，同时引出模型结构图（一段），而后使用3-4段详细阐述模块的设计。Method部分结束，篇幅应达到第三页左侧栏结束（1-2个图）；
Experiments：简单介绍数据集（50-70词），介绍实验的设置，以及实验结果分析。这部分相对于会议论文的展示要少很多，可以做减法。在注意篇幅的情况下，尽可能给出表格与实验结果分析的图。Experiments结束，论文主要内容结束，注意预留200词左右的段落给结论部分即可；
Conclusions：与摘要对应，浓缩以上三个部分精华部分，但不能照抄。Conclusions结束，第四页结束，正文全部结束。