Vision Transformer
关于ViT
Transformer
自2017
年06
月由谷歌团队在论文Attention Is All You Need
中提出后,给自然语言处理领域带去了深远的影响,其并行化处理不定长序列的能力及自注意力机制表现亮眼。根据以往的惯例,一个新的机器学习方法往往先在NLP
领域带来突破,然后逐渐被应用到计算机视觉领域。时间来到2020
年10
月,同样是谷歌团队提出了将Transformer
应用到视觉任务的方法,Vision Transformer(ViT)
。
论文:AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
关于对Transformer
的介绍可以参考Transformer 介绍
。
将Transformer
应用于视觉任务的一种想法是将图像每个像素都flatten
,得到一个表示图像的序列,作为模型的输入。但对使用自注意力模块的transformer
来说,这种方法随着图像分辨率的变大,计算复杂度也变得很高,因为scaled dot self attention
计算时 Q K d k V \frac{QK}{\sqrt{d_k}}V dkQKV的复杂度是序列长度的平方。譬如对于640*640
的图像,序列长度 L L L将达到409600,这远远超出当前transformer
所能处理的序列长度。
在ViT
中,作者是将输入图像等分成大小为16X16
的patch
,然后通过image embedding
将输入从NCHW
转换成(N, hidden_dim, (n_h * n_w))
, n_h
和n_w
是H//patch_size
和W//patch_size
的大小,flatten
后得到长度为 L = n h ∗ n w L=n_h*n_w L