VIT 三部曲 -1 Transformer

Transformer网络详解:从NLP到VIT三部曲

赵zhijian:VIT 三部曲

赵zhijian:VIT 三部曲 - 2 Vision-Transformer

赵zhijian:VIT 三部曲 - 3 vit-pytorch

目前在代表分类领域最高权威的imagenet 图片分类竞赛中, CNN的榜首位置收到了来自self attention 类的算法的的挑战,在最新的榜单上, VIT-H/14 以 88.55% Top-1 的准确率成功登顶第一的宝座,成功打败了由nas 出来的efficientNet 系列的模型,也成功打破了基于卷积和pooling 主导的网络在分类任务上面的垄断.

个人认为,这是一个具有一定跨时代意义的事件, 标志着self attention 类的网络结构也可以很好的完成由CNN 主导的分类的任务,VIT 究竟是什么网络? 它来自于哪里,具体由什么惊艳之处,为何可以在imageNet 任务上取得这么好的成绩, 下面我们就分三块来分析一下. 今天讲第一部分就是VIT的最开始的模型叫做 Transformer

 

Attention is all you Need -- Transformer

https://arxiv.org/pdf/1706.03762.pdf

Transformer 是一种google Brain 在2017 年nips 上面提出的一种基于self attention的用于进行NLP 任务的基础模型框架. 框架主体采用传统的 sequence to sequence 框架, 由encoder

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值