大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍Transformer架构在计算机视觉方面的成功模型,将Transformer引入图像领域:ViT、ViLT。
ViT
ViT(Vision Transformer) 是一种将 Transformer 模型用于计算机视觉任务中的创新架构。ViT 只使用了 Transformer 的编码器 部分进行特征提取和表征学习。
论文:AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE
1. ViT的基本概念
ViT 的核心思想是将传统的ÿ