机器学习笔记:ViT (论文 An Image Is Worth 16X16 Words: Transformers for Image Recognition at Scale)

ICLR 2021

0 前言

说到图像处理,一般想到的就是CNN/CNN的变体

机器学习笔记:CNN卷积神经网络_UQI-LIUWJ的博客-CSDN博客

 

 

。ViT的想法是利用Transformer机制来替换CNN机制,将Transformer运用到图像分类中。

 机器学习笔记:Transformer_UQI-LIUWJ的博客-CSDN博客

1 图像转成句子(图片 token化)

        将图像分割成小块(image patch),并将这些块转化为序列,作为Transformer的输入。

        图像块(image patches)相当于NLP任务中的单词(token)来做处理。以有监督的方式训练图像分类模型。

  • 比如一张原始图像x \in R^{H*W*C},分辨率是H×W,通道数是C
  • 我们将其分割成P×P的patch组成的序列x' \in R^{\frac{H\times W}{P^2}\times (P\times P \times C)}

2 整体流程

和Transformer的encoder流程差不多

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UQI-LIUWJ

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值