ResNet网络卷积视觉网络 和 Vit (Vision Transformer)两种网络对比, 在特征提取上的不同

从信息提取的角度思考,图片为什么要输入——>网络模型(卷积神经网络(ResNet系列)对比 ViT (Vision Transformer))

1. 卷积核的工作原理:

特征提取:卷积核通过在输入图像(或特征图)上滑动来提取特征。每个卷积核负责从输入数据中提取一种特定类型的特征,例如边缘、颜色变化、纹理等。

权重和偏置:每个卷积核都有一组权重和一个偏置项,这些参数在训练过程中通过反向传播算法进行学习和更新。卷积操作本质上是对卷积核权重和输入图像片段(卷积核覆盖的区域)的元素进行 加权求和,然后 加上偏置项。

激活函数:卷积操作的输出通常会通过一个非线性激活函数(如ReLU)进行处理,以引入非线性特性,这对于学习复杂的特征和模式是必要的。

多个卷积核:CNN层通常包含多个不同的卷积核,每个卷积核都可以捕捉输入数据的不同特征。这些不同的卷积核在相同的输入数据上进行操作,但由于它们的权重不同,因此可以提取不同的信息。
请添加图片描述

2. ViT 线性映射

ViT的架构主要基于Transformer模型,这是一种主要依靠自注意力机制(self-attention)来处理数据的方法。ViT模型的核心是将图像划分为一系列的小块(patches),这些小块被 线性投影 (通过全连接层,而非卷积层)到一个高维空间,并作为序列输入到一个标准的Transformer模型中。Transformer模型通过自注意力机制来处理这些序列,从而学习图像的全局特征。

在ViT的设计中,图像的每个patch都被单独处理,而不是通过传统CNN中的卷积操作来提取特征。这一点是ViT和基于卷积的网络(如CNN)的主要区别之一。自注意力机制允许模型在处理每个patch时考虑到与它相关的所有其他patches,而不是依赖于固定大小的卷积窗口**(感知野)**

请添加图片描述

结论:

从特征图的角度思考(信息提取)

1.(卷积, ViT映射——>都是线性变化——>特征的维度都很

2.(位置信息——>都得到比原来图片的特征图)

CNNViT
设计思想先局部再整体。CNN的结构决定了模型的理解过程,必须是循序渐进的。先全部再细节,ViT的结构上每一个小的patch 一开始便要进行注意力机制的分配,每一个patch在空间上的相关性必须要高
设计局限强的局部理解能力——>卷积核的尺寸——>特征图不能太大——>网络深度会很深(全局理解需要深度去弥补),对于CNN来说(CNN核的大小变化一般不大)。它特征图的最终大小一般和第一层,或者最后一层卷积核的大小一样,目的是保证考虑到了全局信息强的全局理解能力——>patch的数量不能太多——>特征图不能太大——>网络需要加深(局部理解能力需要深度去弥补) 图片的patch不能切的太多,由于一开始就计算全局的信息整合,导致计算量随深度网络深度线性生长,但是每一个patch的局部信息需要深度去理解加以区分
Patch 里面的信号(都是通过线性变化提取,映射到高纬度上区分)卷积核小,容易训练得出映射信息多,ViT的信号是线性映射,本质和卷积一样都是线性操作,它更像一个反卷积(卷积的反操作)
  • 22
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
卷积网络Transformer是一种将卷积神经网络(CNN)和Transformer结合的方法,用于图像处理任务。在传统的CNN中,卷积层主要用于提取图像的局部征,而Transformer则可以捕捉图像的全局上下文关系。通过将这两种结构结合起来,可以充分利用它们各自的优势,提高图像处理任务的性能和效率。 具体而言,卷积视觉转换器(CvT)是一种新的架构,通过在视觉转换器(ViT)中引入卷积,以实现最佳的性能和效率。这个方法通过两个主要修改来实现,包括在Transformer层次结构中引入新的卷积令牌嵌入和利用卷积投影的卷积Transformer块。这些修改将CNN的优点(平移、缩放和失真不变性)引入到ViT架构中,同时保持了Transformer的优点(动态关注、全局上下文和更好的泛化)。实验证明,CvT在ImageNet-1k数据集上实现了比其他Vision TransformerResNet更先进的性能,且参数更少、计算量更低。在更大的数据集(例如ImageNet-22k)上进行预训练并微调下游任务时,CvT的性能也有所提高。 通过将卷积网络Transformer结合起来,可以兼顾局部征的提取能力和全局上下文的建模能力,从而提高图像处理任务的效果。CvT是一种有效的方法,可以在参数量较少的情况下实现与传统CNN相媲美的性能,并且能够处理更高分辨率的视觉任务。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [读论文之transformer系列-CvT:将卷积引入transformer](https://blog.csdn.net/dear_queen/article/details/122302336)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [7.卷积Transformer结合的ViT](https://blog.csdn.net/qq_45807235/article/details/129506986)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值