VIT 三部曲 -1 Transformer

Transformer网络详解：从NLP到VIT三部曲

最新推荐文章于 2025-09-17 15:58:09 发布

原创

最新推荐文章于 2025-09-17 15:58:09 发布 · 1.1w 阅读

59 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #深度学习

赵zhijian：VIT 三部曲

赵zhijian：VIT 三部曲 - 2 Vision-Transformer

赵zhijian：VIT 三部曲 - 3 vit-pytorch

目前在代表分类领域最高权威的imagenet 图片分类竞赛中, CNN的榜首位置收到了来自self attention 类的算法的的挑战,在最新的榜单上, VIT-H/14 以 88.55% Top-1 的准确率成功登顶第一的宝座,成功打败了由nas 出来的efficientNet 系列的模型,也成功打破了基于卷积和pooling 主导的网络在分类任务上面的垄断.

个人认为,这是一个具有一定跨时代意义的事件, 标志着self attention 类的网络结构也可以很好的完成由CNN 主导的分类的任务,VIT 究竟是什么网络? 它来自于哪里,具体由什么惊艳之处,为何可以在imageNet 任务上取得这么好的成绩, 下面我们就分三块来分析一下. 今天讲第一部分就是VIT的最开始的模型叫做 Transformer

Attention is all you Need -- Transformer

https://arxiv.org/pdf/1706.03762.pdf

Transformer 是一种google Brain 在2017 年nips 上面提出的一种基于self attention的用于进行NLP 任务的基础模型框架. 框架主体采用传统的 sequence to sequence 框架, 由encoder