Vision Transformer中,图像划分patches后的操作。
一直不太理解为何要将 映射到指定的维度空间大小,后来问了一位朋友,他的回答是“将现实中的东西映射到更高维度的空间中去。比如说一个单词,电脑怎么理解呢?你只能把它映射为一个256位的一个向量,然后来表示这个东西。不同的单词,它对应向量不一样。”
好像明白了些~
Vision Transformer中,图像划分patches后的操作。
一直不太理解为何要将 映射到指定的维度空间大小,后来问了一位朋友,他的回答是“将现实中的东西映射到更高维度的空间中去。比如说一个单词,电脑怎么理解呢?你只能把它映射为一个256位的一个向量,然后来表示这个东西。不同的单词,它对应向量不一样。”
好像明白了些~