多模态论文笔记——ViT、ViLT

好评笔记

已于 2025-01-10 18:09:21 修改

阅读量1.8k

点赞数 41

分类专栏：多模态论文笔记文章标签：深度学习笔记人工智能 vit vilt 计算机视觉 transformer

于 2024-11-27 20:55:05 首次发布

本文链接：https://blog.csdn.net/haopinglianlian/article/details/144093215

版权

多模态论文笔记专栏收录该内容

16 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Transformer架构在计算机视觉方面的成功模型，将Transformer引入图像领域：ViT、ViLT。

在这里插入图片描述

文章目录

ViT

1. ViT的基本概念

2. ViT的结构与工作流程

1. 图像分块（Image Patch Tokenization）

2. 位置编码（Positional Encoding）

3. Transformer 编码器（Transformer Encoder）

4. 分类标记（Classification Token）

3. ViT的关键组件

1. 图像块（Patch Embedding）

2. 多头自注意力机制（Multi-Head Self-Attention）

3. 位置编码（Positional Encoding）

4. ViT与CNN的对比

5. ViT的优势和挑战

优势

挑战

6. ViT的应用

ViT 与 CNN 的混合模型 Hybrid ViT

ViLT

1. ViLT 的工作流程

1. 图像和语言的输入处理

2. 图像和语言的融合

3. 自注意力机制

4. 输出处理

图文匹配（Image-Text Matching）

掩码语言建模（Masked Language Modeling, MLM）

单词-图块对齐（Word-Patch Alignment）

2. ViLT 的主要创新点

1. 无卷积特征提取器

2. 视觉和语言的早期融合

什么时候用 CLIP，什么时候用 ViLT？

3. 简化的架构

3. ViLT 的优缺点

优点

缺点

DiT

历史文章

机器学习

深度学习