VIT：视觉transformer|学习微调记录

550A

于 2025-01-02 13:12:18 发布

阅读量1.2k

点赞数 28

文章标签： transformer 学习深度学习

本文链接：https://blog.csdn.net/m0_65079225/article/details/144816431

版权

一、了解VIT结构

vit提出了对于图片完全采用transformer结构而不是CNN的方法，通过将图片分为patch，再将patch展开输入编码器（grid_size网格大小），最后用MLP将输出转化为对应类预测。

详细信息可以看下面这个分享：

Vision Transformer (ViT) + 代码【详解】_vit代码-CSDN博客文章浏览阅读2.7k次，点赞18次，收藏53次。虽然 Transformer 架构已成为自然语言处理任务的事实标准，但它在计算机视觉领域的应用仍然有限。在 Vision 中，注意力要么与卷积网络结合使用，要么用于替换卷积网络的某些组件，同时保持其整体结构不变。我们表明，这种对 CNN 的依赖是不必要的，直接应用于图像块序列的纯 Transformer 可以在图

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

550A

关注关注

28
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【计算机视觉】ViT：Vision Transformer 讲解

LJR的博客

03-18

1331

ViT vision transformer BERT NLP CV 图像分类 CLS encoder 全局平均池化 Global Average Pooling GAP patch 注意力 attention 归纳偏置 ResNet BiT CNNs 局部相关性（locality）和平移不变性（translation equivariance） Hybrid 预训练微调 pretrain fine-tune

TPAMI 2024 | HIRI-ViT: 通过高分辨率输入扩展视觉Transformer

小白学视觉

10-23

457

视觉Transformer（Vision Transformer，简称ViT）和卷积神经网络（Convolutional Neural Network，简称CNN）的混合深度模型已成为视觉任务的强大骨干网络。提高这类混合骨干网络的输入分辨率自然会增强模型的容量，但不可避免地会遭受到计算成本的重负，其成本随着输入分辨率的增加而呈二次方增加。相反，我们提出了一种新的混合骨干网络，即针对高分辨率输入的HIgh-Resolution Inputs（即HIRI-ViT），它将流行的四阶段ViT升级为五阶段ViT。

参与评论您还未登录，请先登录后发表或查看评论

LLM动手实践(一): 微调google的bert和vit模型完成文本和图片的分类任务

Miracle8070

08-04

1642

最近大模型比较火热，也正好在公司开始接触这块相关的业务，大模型是未来的趋势，对于研发工程师来讲，是powerful的效能工具，所以想沉淀一些大模型实践相关的笔记来记录自己在使用大模型产品，部署开源大模型解决实际问题或需求，以及fine-tune大模型实现某个功能过程中的所思和所想

ViT：使用 HuggingFace 和 PyTorch 对 Vision Transformer 进行微调实战

Warmer_Sweeter

03-26

5576

点击下方卡片，关注“小白玩转Python”公众号探索 CIFAR-10 图像分类介绍你一定听说过“Attention is all your need”？Transformers 最初从文本开始，现在已无处不在，甚至在图像中使用了一种称为视觉变换器 (ViT) 的东西，这种变换器最早是在论文《一张图片胜过 16x16 个单词：用于大规模图像识别的 Transformers》中引入的。这不仅仅是另一...

用 Transformers微调ViT图像分类

hellozhxy的博客

12-08

1271

批处理以字典列表的形式出现，因此您可以将它们解压缩+堆叠到批处理张量中。由于将返回批处理字典，因此您可以稍后将输入到模型中。return {1234567来自的准确度指标可以轻松用于将预测与标签进行比较。下面，您可以看到如何使用datasetscompute_metricsTrainer123456让我们加载预训练模型。我们将添加 init，以便模型创建具有正确单位数的分类头。我们还将在 Hub 微件中包含和映射以具有人类可读的标签（如果您选择）

DL学习日记-ViT加载预训练模型并微调

m0_73956832的博客

07-30

3938

加载预训练模型以及微调一些地方的方法

Vision Transformer (ViT)

zephyr_wang的博客

10-04

1134

ViT有两个特点，一是采用纯Transformer，没有CNN；二是基于大量的预训练数据。

论文阅读6——VIT：Vision Transformer（包括ViT代码复现）

2403_87584552的博客

10-16

3184

虽然Transformer架构已成为自然语言处理任务的事实标准，但其在计算机视觉中的应用仍然有限。在视觉中，注意力要么与卷积网络结合应用，要么用于替换卷积网络的某些组件，同时保持其整体结构。我们表明，这种对CNN的依赖是没有必要的，并且直接应用于图像补丁序列的纯Transformer可以在图像分类任务中表现得非常好。

Next-ViT：下一代视觉Transformer，用于现实工业场景中的高效部署

AI浩

10-04

778

我们展示了如图2所示的Next-ViT。按照惯例，Next-ViT遵循带有补丁嵌入层和每个阶段一系列卷积或Transformer块的层次金字塔架构。空间分辨率将通过每个阶段减少32倍，而通道维度将在不同阶段扩展。在本章中，我们首先深入设计信息交互的核心块，并分别开发了强大的NCB和NTB来模拟视觉数据中的短期和长期依赖性。局部和全局信息的融合也在NTB中执行，这进一步增强了建模能力。最后，我们系统地研究了集成卷积和Transformer块的方式。

Visual Transformer (ViT)模型详解

12-31

6万+

ViT是2020年Google团队提出的将Transformer应用在图像分类的模型，虽然不是第一篇将transformer应用在视觉任务的论文，但是因为其模型“简单”且效果好，可扩展性强（scalable，模型越大效果越好），成为了transformer在CV领域应用的里程碑著作，也引爆了后续相关研究。

【Transformer系列】深入浅出理解ViT(Vision Transformer)模型

IT菜鸟

10-15

4万+

【Transformer系列】深入浅出理解ViT(Vision Transformer)网络模型

解决Vision Transformer在任意尺寸图像上微调的问题：使用timm库

weixin_42364196的博客

11-22

5644

介绍分析ViT在任意尺寸图像上微调的问题及如何通过timm库来解决

如何训练一个ViT模型-基于timm（2）

weixin_48076759的博客

05-23

1835

模型导入预训练ViT，改变最后一层分类层，使之符合cifar10的10个类别model.to(device) #可不可以用gpu，不行的话就与、用cpu优化器传入ViT head的参数，只训练后面的分类层。

【ViT 微调时关于position embedding如何插值（interpolate）的详解】

syh的技术记录

10-20

7373

本文适合对Vision Transformer有一定了解（知道内部结构和一些实现细节，最好是精读过ViT这篇论文）的读者阅读，这篇博客不会详细说明ViT的结构和前向推断过程。

Transformers实战03-PEFT库使用LORA方法微调VIT图像分类。

liaomin416100569的专栏

06-04

4902

PEFT（Parameter-Efficient Fine-Tuning）是一个用于高效地将大型预训练模型适配到各种下游应用的库，而无需对模型的所有参数进行微调，因为这在计算上是非常昂贵的。PEFT 方法只微调少量的（额外的）模型参数——显著降低了计算和存储成本——同时其性能与完全微调的模型相当。这使得在消费者硬件上训练和存储大型语言模型（LLMs）变得更加可行。PEFT 集成了Diffusers和Accelerate库，以提供更快、更简单的方法来加载、训练和使用大型模型进行推理。

多模态ViLT模型下游任务微调原理及代码

m0_56722835的博客

05-31

6336

前言：最近准备搞图文问答VQA，恰巧多模态任务包括了NLP以及CV领域的知识，由于以前做过的一些项目不知道放到哪了，找起来也很麻烦，这篇论文可以帮助我很好的梳理NLP和CV故事线，对此进行总结，以防自己忘记。代码比较粗糙准备在下一个版本进行改进。为啥是这篇文章？由于本来是学NLP的，所以一开始就接触了有关模型预训练和微调的相关概念。在NLP的世界里，transformer到来之后，出现了Bert模型，这模型可了得，好像大部分任务都可以加载Bert的权重文件并进行微调来达到自己......

Pytorch微调深度学习模型