ResNet网络卷积视觉网络和 Vit （Vision Transformer）两种网络对比，在特征提取上的不同

最新推荐文章于 2025-04-13 13:18:38 发布

大路诗人路小果

最新推荐文章于 2025-04-13 13:18:38 发布

阅读量2.5k

点赞数 22

文章标签：网络 transformer 深度学习

本文链接：https://blog.csdn.net/a14285700/article/details/136687515

版权

从信息提取的角度思考，图片为什么要输入——>网络模型（卷积神经网络（ResNet系列）对比 ViT (Vision Transformer））

1. 卷积核的工作原理：

特征提取：卷积核通过在输入图像（或特征图）上滑动来提取特征。每个卷积核负责从输入数据中提取一种特定类型的特征，例如边缘、颜色变化、纹理等。

权重和偏置：每个卷积核都有一组权重和一个偏置项，这些参数在训练过程中通过反向传播算法进行学习和更新。卷积操作本质上是对卷积核权重和输入图像片段（卷积核覆盖的区域）的元素进行加权求和，然后加上偏置项。

激活函数：卷积操作的输出通常会通过一个非线性激活函数（如ReLU）进行处理，以引入非线性特性，这对于学习复杂的特征和模式是必要的。

多个卷积核：CNN层通常包含多个不同的卷积核，每个卷积核都可以捕捉输入数据的不同特征。这些不同的卷积核在相同的输入数据上进行操作，但由于它们的权重不同，因此可以提取不同的信息。
请添加图片描述

2. ViT 线性映射

ViT的架构主要基于Transformer模型，这是一种主要依靠自注意力机制（self

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

大路诗人路小果

关注关注

22
点赞
踩
29

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【计算机视觉】ViT：Vision Transformer 讲解

LJR的博客

03-18

1325

ViT vision transformer BERT NLP CV 图像分类 CLS encoder 全局平均池化 Global Average Pooling GAP patch 注意力 attention 归纳偏置 ResNet BiT CNNs 局部相关性（locality）和平移不变性（translation equivariance） Hybrid 预训练微调 pretrain fine-tune

ViT和ResNet：计算机视觉预训练模型

AI天才研究院

12-04

1133

引言在当今快速发展的计算机视觉领域，预训练模型已经成为提高模型性能和泛化能力的重要手段。预训练模型通过在大规模数据集上预先训练，然后再将其应用于特定任务上，从而显著提高了模型的性能。本文将重点探讨两种重要的计算机视觉预训练模型：ViT（Vision Transformer）和ResNet（残差网络）。首先，我们将简要介绍计算机视觉与预训练模

参与评论您还未登录，请先登录后发表或查看评论

ViT 及 ViT和ResNet原理是否一样

yaohaishen的专栏

10-22

2332

链接：https://arxiv.org/abs/2010.11929 这个论文看下来，有这么几个重点需要去掌握：将整张图片转化为多个patches，作为 TRM 的序列输入输入的时候需要加入位置编码，三种位置编码：一维，二维，相对位置编码，这三种效果没有太大区别； TRM可以接受CNN的输出作为输入，作为一种TRM的混合结构，区别于VIT这种无卷积结构可能是由于缺乏inductive biases，数据集上直接训练的VIT效果一般，需要先在大数据...

卷积神经网络和Vision Transformer的对比之归纳偏置

985小菜鸡

07-06

1260

每个像素点与其他所有像素点的关系都被考虑在内，这使得ViT在处理全局特征时非常有效，特别是在复杂的图像场景中。同一个卷积核在整个图像上滑动（卷积操作），从而在不同位置上使用相同的参数。由于卷积核在图像上的滑动操作，CNN对图像的平移具有一定的不变性。由于缺乏像CNN那样的强归纳偏置，ViT需要大量的数据来学习图像的各种模式和特征。如果数据量不足，ViT的性能可能不如CNN。简单来说，CNN的归纳偏置让它在处理局部特征时更加高效和鲁棒，而ViT的全局注意力使得它在数据量充足时能更好地处理全局信息。

计算机视觉｜ViT详解：打破视觉与语言界限

紫雾凌寒

03-01

1331

Vision Transformer（ViT）是计算机视觉的重要创新，通过 Transformer 架构捕捉图像全局依赖，在图像分类、目标检测、语义分割中展现潜力。其核心是将图像分块并嵌入，结合位置编码输入 Transformer 编码器，通过自注意力建模全局关系。预训练与微调、数据增强、优化器调整提升了性能。

ResNet网络卷积视觉网络和 Vit （Vision Transformer）两种网络对比

a14285700的博客

03-13

1772

ResNet网络卷积视觉网络和 Vit （Vision Transformer）两种网络对比 1. 卷积神经网络 1.1 特点：卷积+池化（位置信息）天然携带，具有感知野, 位置信息在特征图上最终得到的特征图的像素就是 patch 维度就是卷积核数（在vit是隐藏层) ， ** 卷积核的数量——>高维信息宽 **，（图片数量, 高维长度, 特征图宽, 特征图长） 2. ViT 2.1 Vision Transformer 本身不是用卷积核，没有卷积操作，位置信息，在patch

【小实验1】比较ResNet、ViT、SwinTransformer的归纳偏置（然而并没有达到预期结果）

syh的技术记录

11-08

2114

本实验并未获得预期的结果，更多的是当作实验记录。

【ViViT】A Video Vision Transformer 用于视频数据特征提取的ViT详解

lym823556031的博客

11-19

6092

VIVIT详解

深度学习语义分割实战：ResNet 与 ViT 结合的模型解析

m0_69441654的博客

02-12

1102

ResNet 作为特征提取器，ViT 进行全局信息建模。数据增强、优化方法确保高质量的语义分割效果。IoU、mIoU、F1 评价指标监测模型性能。

MambaVision：一种混合Mamba-Transformer视觉主干网络

qq_45800507的博客

10-13

1277

摘要我们提出了一种新型的混合Mamba-Transformer主干网络，命名为MambaVision，它专门为视觉应用而设计。我们的核心贡献包括重新设计Mamba公式，以提高其有效建模视觉特征的能力。此外，我们对集成视觉变换器（ViT）与Mamba的可行性进行了全面的消融研究。我们的结果表明，在Mamba架构的最后一层加入多个自注意力模块大大提高了捕获长程空间依赖性的建模能力。基于我们的发现，我们引入了一系列具有分层架构的MambaVision模型，以满足各种设计标准。

个人下载和整理的卷积神经网络论文合集

10-23

卷积神经网络（Convolutional Neural Networks，简称CNN）是一种深度学习模型，广泛应用于计算机视觉领域，如图像分类、目标检测、语义分割等。它借鉴了生物视觉系统的结构，尤其是大脑皮层中的视觉处理机制，通过卷...

论文阅读6——VIT：Vision Transformer（包括ViT代码复现）

2403_87584552的博客

10-16

3179

虽然Transformer架构已成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结合应用，要么用于替换卷积网络的某些组件，同时保持其整体结构。我们表明，这种对CNN的依赖是没有必要的，并且直接应用于图像补丁序列的纯Transformer可以在图像分类任务中表现得非常好。

CeiT：训练更快的多层特征抽取ViT

pprp的博客

01-08

2145

【GiantPandaCV导语】来自商汤和南洋理工的工作，也是使用卷积来增强模型提出low-level特征的能力，增强模型获取局部性的能力，核心贡献是LCA模块，可以用于捕获多层特征表示。引言针对先前Transformer架构需要大量额外数据或者额外的监督(Deit)，才能获得与卷积神经网络结构相当的性能，为了克服这种缺陷，提出结合CNN来弥补Transformer的缺陷，提出了CeiT: （1）设计Image-to-Tokens模块来从low-level特征中得到embedding。（2）将Tran

ResNet改进(27)：融合EfficientViT 高效混合网络设计

热门推荐

z240626191s的博客

08-29

2万+

Vision Transformer（ViT）是一种基于架构的深度学习模型，用于图像识别和计算机视觉任务。与传统的卷积神经网络（CNN）不同，ViT直接，并利用自注意力机制来处理图像中的像素关系。ViT通过将图像分成一系列的，并。然后，这些向量将通过多层的Transformer编码器进行处理，其中包含了。这样可以。最后，通过对Transformer编码器输出进行分类或回归，可以完成特定的视觉任务。为什么不能直接将transformer直接应用于图像处理中呢？

2000字解读这篇比较ResNet和ViT差异的论文

学姐带你玩AI的博客

09-23

2079

前言计算机视觉、机器学习，这两个词会让你想到什么？相信绝大多数人第一反应都是CNN（卷积神经网络），而持续关注这些领域发展的人，则会进一步联想到近几年大火的Transformer，它不仅在自然语言相关任务上表现优秀，在图像领域同样取得了相当不错的效果。去年10月份Google推出的Vision Transformer (ViT)，就在图像识别任务上用更高的学习效率，达到了不亚于ResNet的精度。当一个模型性能达到SOTA之后，很自然地，人们就会想去探究它的原理，并和先前的模型进行比较。今年上半年，普

Vision Transformer (ViT)提取图片特征

01-07

### 使用 Vision Transformer (ViT) 提取图像特征为了使用 Vision Transformer (ViT) 从图片中提取特征，可以采用预训练的 ViT 模型并调整其结构以便于获取中间层的输出。具体实现方法如下： #### 加载预训练模型首先需要加载一个已经经过充分训练的 ViT 模型。这可以通过调用深度学习框架（如 PyTorch 或 TensorFlow）中的相应库函数完成。对于 PyTorch 用户来说，可以从 Hugging Face 的 `transformers` 库导入 ViT 模型： ```python from transformers import ViTFeatureExtractor, ViTModel feature_extractor = ViTFeatureExtractor.from_pretrained('google/vit-base-patch16-224') model = ViTModel.from_pretrained('google/vit-base-patch16-224') ``` #### 准备输入数据接着要准备待处理的图像文件作为输入给 ViT 模型。这里同样借助上述提到的功能提取器来进行必要的预处理操作。 ```python import requests from PIL import Image url = "http://images.cocodataset.org/val2017/000000039769.jpg" image = Image.open(requests.get(url, stream=True).raw) inputs = feature_extractor(images=image, return_tensors="pt") ``` #### 获取特征向量最后一步就是让 ViT 模型接收这些经过预处理后的张量形式的数据，并返回对应的隐藏状态表示即所需特征向量。 ```python outputs = model(**inputs) last_hidden_states = outputs.last_hidden_state print(last_hidden_states.shape) # 输出形状应类似于 torch.Size([batch_size, sequence_length, hidden_dim]) ``` 通过这种方式可以获得每一张输入图片对应的一系列高维特征向量[^1]。

ResNet网络卷积视觉网络 和 Vit （Vision Transformer）两种网络对比， 在特征提取上的不同

从信息提取的角度思考，图片为什么要输入——>网络模型（卷积神经网络（ResNet系列）对比 ViT (Vision Transformer））

1. 卷积核的工作原理：

2. ViT 线性映射

ResNet网络卷积视觉网络和 Vit （Vision Transformer）两种网络对比，在特征提取上的不同