【VIT】阅读笔记
于 2023-11-09 00:09:00 首次发布
本文详细解读了2021年ICLR发表的Vision Transformer (VIT)架构,该架构首次将纯Transformer应用于图像识别任务。针对Transformer在CV领域的应用挑战,VIT将图像划分为16x16的patches,显著降低序列长度。网络结构中,位置编码用于保留patch顺序信息,而class token则用于分类任务,确保与原始Transformer的一致性。
摘要由CSDN通过智能技术生成