CeiT阅读笔记

**

CeiT【Incorporating Convolution Designs into Visual Transformer】

**
纯Transformer架构通常需要大量的训练数据和额外的监督才能获得与卷积神经网络CNNs相当的性能,为了克服这些限制,结合CNN在提取低级特征和增强局部性方面的优势以及Transformer在建立远程依赖方面的优势提出了新的卷积增强图像转换器。DeiT引入CNN模型作为teacher,计算负担加重=>映入全新的visual Transformer
1、设计了Image-to-tokems模块,从低级特征中提取patchs
2、将每个编码块的前馈网络替换成局部增强的前馈层LeFF,提高了相邻tokens在空间维度上的相关性
3、使用多级表示的Transformer的顶部附加一个分层类标记注意LCA
CeiT具有有效性和泛化能力,不需要大量的训练数据和额外的CNN教师。此外,CeiT模型也表现出更好的收敛性,训练迭代次数减少了3倍,可以显著降低训练成本
Transformer=>NLP=>长距离建模与并行训练
Convolution=>平移不变性and局部性,平移不变性与共享权值相关,共享权值机制能够捕捉视觉任务中的几何与拓扑信息,对于局部性,在计算机视觉任务中,通常假设相邻像素总是趋于相关的
ViT=>难以提取image的底层结构,其次self-attention专注于构建token之间的远程依赖关系,忽略了空间维度的局部性,那么如何将CNNs和Transformer的优势进行结合起来呢?
?想法1:结合CNNs提取低级特征===>不像ViT直接将原始图像划分成patch然后拉直作为token输入,而是设计I2T模块,先从低级特征中提取patch,然后拉直作为token;
?想法2:增强局部性方面===>将FFN转换成LeFF,旨在提高相邻token在空间维度上的相关性,为了利用self-attention的能力,在Transformer顶部附加了分层类标记注意LCA
卷积与自注意力混合模型:1、如ResNet的最后几个块插入non-local layers;2、用self-attention module 替换conbolutional layer
在这里插入图片描述

ViT:tokenization + encoder blocks + multi-head self-attention layer + feed-forward network
①、Tokenization:image(H×W×3) ===> patches(N×(P2×3)),N=H*W/P2 ===> P^2*3映射到C维,(N+1)*C ViT用16×16或32×32的patch、大小分割每张图像,但是这样直接标记存在两个局限性:1、难以捕获图像中的low level information(such as edges and corners) 2、larger kernel过度参数化难以优化,需要更多的训练样本和训练迭代
②、Encoder blocks:不同与CNN,feature map在每个阶段都会向下采样,而Encoder块中的token的长度并没有减少,有效感受野无法被有效的扩展,会影响visual Transformer的效率
在这里插入图片描述

③、MSA:q∈(N+1)C , k∈(N+1)C , v∈(N+1)C Attention(q,k,v) ∈ (N+1)C
在这里插入图片描述
④、FFN:W1∈C
K,b1∈K,W2∈K
C,b2∈C,FFN作为MSA的补充,对每个token进行展开的非线性变换,从而增强了token的表达能力,但是没有考虑符号之间的空间关系
在这里插入图片描述
Image-to-Tokens:该模块从特征图中提取一小块,而不是原始图像,属于一种轻量级的主干,由一个卷积层和一个max-pooling层组成;它充分利用CNNs在提取low level information的优势,通过缩小patch大小来降低嵌入训练的难度
在这里插入图片描述
Locally-Enhanced Feed-Forward Network:为了结合CNNs提取局部信息的优势和Transformer建立远程依赖的能力,作者提出了一个局部增强的前馈网络LeFF;
Tokens∈(N+1)C [Patch Tokens,Class Token]===>Patch Tokens:N(e
C),e为扩展比,扩展到更高维度===>恢复到二维 =>深度可分离卷积,卷积核为k,来提高一个token与相邻k^2-1个token之间的相关性=>"image"被平展成tokens∈N
(e*C)===>投影到初始维度,在每个线性投影和深度卷积之后,添加一个BatchNorm和一个GELU
在这里插入图片描述
在这里插入图片描述

Layer-wise Class-Token Attention:由于网络的深化,特征图的接受范围增大,注意力距离随着网络增加而增加,特征information在不同层不相同,为了集成不同层的信息,设计了一个分层的类标记注意class token attrntion(LCA),LCA将注意力放在不同层的token上
在这里插入图片描述

CeiT模型可以有效结合CNN和Transfoemer的优势,在计算成本增加较小的情况下,获得更高的性能和更好的收敛性

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值