token包含:class token、patch token,在NLP叫每一个单词为token,然后有一个标注句子语义的标注是CLS,在CV中就是把图像切割成不重叠的patch序列(其实就是token)
就是说之前的attention大多使用在seq2seq任务中,例如在机器翻译中,attention作用在源句子token(token就指的是单词或词语)和目标句子token之间,但是transformer的self-attention作用在源句子的token之间。
将图像解释为一系列类似于自然语言中的单词的标记(token),把图像切割成不重叠的patch序列比较直观
例如上述图对应的代码,从下向上,首先是Token2Img对应的就是2(将1D转为2D),整好对应了Token(单词或词语1D的)==》Img(是2D/3D的)