机器学习笔记：ViT （论文 An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale）

最新推荐文章于 2023-08-29 17:42:29 发布

UQI-LIUWJ

最新推荐文章于 2023-08-29 17:42:29 发布

阅读量339

点赞数

分类专栏：论文笔记文章标签：机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40206371/article/details/125892791

版权

论文笔记专栏收录该内容

279 篇文章 69 订阅

订阅专栏

ICLR 2021

0 前言

说到图像处理，一般想到的就是CNN/CNN的变体

机器学习笔记：CNN卷积神经网络_UQI-LIUWJ的博客-CSDN博客

。ViT的想法是利用Transformer机制来替换CNN机制，将Transformer运用到图像分类中。

机器学习笔记：Transformer_UQI-LIUWJ的博客-CSDN博客

1 图像转成句子（图片 token化）

将图像分割成小块（image patch），并将这些块转化为序列，作为Transformer的输入。

图像块（image patches）相当于NLP任务中的单词（token）来做处理。以有监督的方式训练图像分类模型。

比如一张原始图像 $x \in R^{H*W*C}$ ，分辨率是H×W，通道数是C
我们将其分割成P×P的patch组成的序列 $x' \in R^{\frac{H\times W}{P^2}\times (P\times P \times C)}$

2 整体流程

和Transformer的encoder流程差不多

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习笔记：ViT （论文 An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale）

VIT
复制链接

扫一扫

专栏目录

UQI-LIUWJ CSDN认证博客专家 CSDN认证企业博客

码龄7年

1456: 原创

8622: 周排名

840: 总排名

220万+: 访问

: 等级

1万+: 积分

3066: 粉丝

4558: 获赞

804: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

数据集笔记：杭州 & 上海地铁客流数据
UQI-LIUWJ: 我还有一个上海地铁数据，但不知道是不是同一个数据，需要的话私戳我个wx我发你
数据集笔记：杭州 & 上海地铁客流数据
Fraser6: 你好，请问有刷卡的原始数据吗？
论文笔记：Human Mobility Prediction Challenge: Next LocationPrediction using Spatiotemporal BERT
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：Human Mobility Prediction Challenge: Next LocationPrediction using Spatiotemporal BERT
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：Cell-Level Trajectory Prediction Using Time-embeddedEncoder-Decoder Network
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UQI-LIUWJ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。