CNN和Transformer相结合的模型

最新推荐文章于 2024-08-05 10:29:29 发布

CV案例精选

最新推荐文章于 2024-08-05 10:29:29 发布

阅读量1w

点赞数 6

文章标签： transformer cnn 深度学习

本文链接：https://blog.csdn.net/cvanlijingxuan/article/details/122121041

版权

本文探讨了如何结合CNN的局部特性和Transformer的全局注意力，以改进视觉任务的性能。从BoTNet将Transformer的多头自注意力层应用于CNN瓶颈层，到DeiT通过数据高效训练提升Transformer在小数据集上的表现，再到ConViT和CeiT通过引入卷积元素增强Transformer的局部信息处理，文章展示了两种结构的优势互补。此外，Early Conv和CoAtNet进一步优化了模型设计，提高模型的泛化能力和性能。

摘要由CSDN通过智能技术生成

©作者 |小欣

CNN广泛应用于计算机视觉的各种任务中，比如分类，检测，分割，CNN通过共享卷积核提取特征，减少网络参数数量，提高模型效率，另一方面CNN具有平移不变性，即无论特征被移动到图像的哪个位置，网络都能检测到这些特征。

尽管CNN存在很多优势，但是其感受野通常很小，不利于捕获全局特征。

视觉Transformer由于能够捕获一张图片的全局信息，因此在许多视觉任务中超越许多CNN结构。

ViT是第一个替代CNN，使用纯Transformer的结构，输入一张224×224×3的图片，ViT将其分成14×14=196个非重叠的patches，每个patch的大小是16×16×3，然后将这些patch输入到堆叠的多个transformer编码器中。

CNN的成功依赖于其两个固有的归纳偏置，即平移不变性和局部相关性，而视觉Transformer结构通常缺少这种特性，导致通常需要大量数据才能超越CNN的表现，CNN在小数据集上的表现通常比纯Transformer结构要好。

CNN感受野有限导致很难捕获全局信息，而Transformer可以捕获长距离依赖关系，因此ViT出现之后有许多工作尝试将CNN和Transformer结合，使得网络结构能够继承CNN和Transformer的优点，并且最大程度保留全局和局部特征。

Transformer是一种基于注意力的编码器-解码器结构，最初应用于自然语言处理领域，一些研究最近尝试将Transformer应用到计算机视觉领域。

在Transformer应用到视觉之前，卷积神经网络是主要研究内容。受到自注意力在NLP领域的影响，一些基于CNN的结构尝试通过加入自注意力层捕获长距离依赖关系，也有另外一些工作直接尝试用自注意力模块替代卷积，但是纯注意力模块结构仍然没有最先进的CNN结构表现好。

01 卷积中引入Transformer

Transformer中有两个主要部分，多头自注意力层和全连接层，最近，Cordonnier et al.在研究中表明卷积可以通过使用多头自注意力层达到同样的效果。

Transformer 理论上比CNN能得到更好的模型表现，但是因为计算全局注意力导致巨大的计算损失，特别是在浅层网络中，特征图越大，计算复杂度越高，因此一些方法提出将Transformer插入到CNN主干网络中，或者使用一个Transformer模块替代某一个卷积模块。

BoTNet.[1] 通过使用Multi-Head Self-Attention(MHSA)替代ResNet Bottleneck中的3×3卷积，其他没有任何改变，形成新的网络结构，称为Bottleneck Transformer，相比于ResNet等网络提高了在分类，目标检测等任务中的表现，在ImageNet分类任务中达到84.7%的准确率，并且比EfficientNet快1.64倍。

BoTNet中使用的MHSA和Transformer中的MHSA有一定的区别，首先，BoTNet中使用Batch Normalization