ViT：AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE论文阅读笔记

我来了！！！

已于 2023-03-30 19:40:28 修改

阅读量64

点赞数

分类专栏：论文阅读笔记文章标签：计算机视觉人工智能深度学习

于 2023-03-30 17:08:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45788429/article/details/129858304

版权

论文阅读笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

- ICLR 2021

-本文主要工作：将Transformer运用在视觉领域上

- 网络结构

输入为一张大小为224*224的图片，将图片分成14*14个大小为16*16的patch。对每个patch进行embedding操作，使其成为一个向量。同时加入位置编码和额外的名为cls的token，用以输出分类结果

METHOD：

-token embedding

利用卷积操作将224*224的图片分割成14*14个大小为16*16的patch。具体操作为利用num_dim个窗口大小为16*16，步长也为16的卷积核进行卷积，得到14*14*num_dim的特征图，而后进行reshape操作成196*num_dim的向量。再加入位置编码positional encoding 和额外的token cls。一共组成197个维度为num_dim向量。

-transformer encoder

将197*num_dim 的向量输入N个到transformer的encoder层中。首先通过layer normalization进行层归一化，有助于网络收敛。再通过多头注意力机制捕获不同patch之间的关系，这个过程中，token cls会收集其他token的信息。

-classify

得到token cls之后，通过一个全连接层输出分类结果。

我来了！！！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ViT：AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE论文阅读笔记

利用卷积操作将224*224的图片分割成14*14个大小为16*16的patch。具体操作为利用num_dim个窗口大小为16*16，步长也为16的卷积核进行卷积，得到14*14*num_dim的特征图，而后进行reshape操作成196*num_dim的向量。一共组成197个维度为num_dim向量。再通过多头注意力机制捕获不同patch之间的关系，这个过程中，token cls会收集其他token的信息。输入为一张大小为224*224的图片，将图片分成14*14个大小为16*16的patch。
复制链接

扫一扫

专栏目录

我来了！！！ CSDN认证博客专家 CSDN认证企业博客

码龄5年

59: 原创

117万+: 周排名

22万+: 总排名

2万+: 访问

: 等级

662: 积分

23: 粉丝

15: 获赞

15: 评论

96: 收藏

私信

关注

热门文章

分类专栏

最新评论

CUDA编程入门系列（十）并行规约
腾昵猫: 引用「有一种可能就是比如说线程1 是将第0个数和第1个数进行相加，也就是说线程1要访问第0个数和第1个数」在第一次循环第0个线程访问的是数组位置0和1的数值，第1个线程访问的是2和3的数值。所以这里的说法不成立。
Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention论文阅读笔记
小棉花kk: 讲得挺好
MAT: Mask-Aware Transformer for Large Hole Image Inpainting论文阅读笔记
keep--learning: 博主您好，这篇论文您复现了吗
解决Jetson AGX xavier开机在Started update utmp about system runlevel changes卡死
Qi妖: 你好麻烦问一下，这个加载界面的时候按 ctrl alt f2 不起作用是怎么回事，进不去这个tty2模式
TFill：Bridging Global Context Interactions for High-Fidelity Image Completion论文阅读笔记
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。