16.ViT模型介绍

本文介绍了Vision Transformer (ViT),一个由谷歌团队提出的将Transformer应用于视觉任务的模型。ViT通过将图像分割成固定大小的patches,然后转换为序列,输入到Transformer编码器中进行处理。尽管高分辨率图像会导致计算复杂度增加,但ViT通过固定大小的patches解决了这个问题。在分类任务中,ViT仅使用编码器输出的第一个元素作为分类器的输入,而忽略了其他信息。文章还涵盖了代码分析,解析了输入数据处理和多头注意力模块的应用。
摘要由CSDN通过智能技术生成

Vision Transformer

关于ViT

Transformer201706月由谷歌团队在论文Attention Is All You Need中提出后,给自然语言处理领域带去了深远的影响,其并行化处理不定长序列的能力及自注意力机制表现亮眼。根据以往的惯例,一个新的机器学习方法往往先在NLP领域带来突破,然后逐渐被应用到计算机视觉领域。时间来到202010月,同样是谷歌团队提出了将Transformer应用到视觉任务的方法,Vision Transformer(ViT)

论文:AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

关于对Transformer的介绍可以参考Transformer 介绍

Transformer应用于视觉任务的一种想法是将图像每个像素都flatten,得到一个表示图像的序列,作为模型的输入。但对使用自注意力模块的transformer来说,这种方法随着图像分辨率的变大,计算复杂度也变得很高,因为scaled dot self attention计算时 Q K d k V \frac{QK}{\sqrt{d_k}}V dk QKV的复杂度是序列长度的平方。譬如对于640*640的图像,序列长度 L L L将达到409600,这远远超出当前transformer所能处理的序列长度。

ViT中,作者是将输入图像等分成大小为16X16patch,然后通过image embedding将输入从NCHW转换成(N, hidden_dim, (n_h * n_w)), n_hn_wH//patch_sizeW//patch_size的大小,flatten后得到长度为 L = n h ∗ n w L=n_h*n_w L

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值