Visual Transformer (ViT)模型详解

Transformer模型应用到图像面临挑战:

  • 与单词、句子、段落等文本数据不同,图像中包含更多的信息,并且是以像素值的形式呈现。
  • 如果按照处理文本的方式来处理图像,即逐像素处理的话,即使是目前的硬件条件也很难。Transformer缺少CNNs的归纳偏差,比如平移不变性和局部受限感受野。
  • CNNs是通过相似的卷积操作来提取特征,随着模型层数的加深,感受野也会逐步增加。但是由于Transformer的本质,其在计算量上会比CNNs更大。
  • Transformer无法直接用于处理基于网格的数据,比如图像数据。

为解决上述问题,Google的研究团队提出了ViT模型,将图像数据转换成序列数据就可以。

ViT模型架构

ViT的工作流程:

  1.     将一张图片分成patches
  2.     将patches铺平
  3.     将铺平后的patches的线性映射到更低维的空间
  4.     添加位置embedding编码信息
  5.     将图像序列数据送入标准Transformer encoder中去
  6.     在较大的数据集上预训练
  7.     在下游数据集上微调用于图像分类

 模型由三个模块组成:

  • Linear Projection of Flattened Patches(Embedding层)
  • Transformer E
  • 15
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值