一文读懂transformer(CV专享)

导言:

       transformer在这两年大火,CV界广泛应用transformer模型,充分吸收其idea到自己的领域。考虑到transformer本是应用于NLP的论文,其中很多内容都形成了共识,因此在论文中并未提及,就好像CV中论文提到图像预处理使用center crop , color jitter,但不会详细介绍这两个,这就是CV领域的共识,其他领域的人看到这两个将会很困惑,作为CV中人读transformer会被很多共识内容所折磨,包括很多介绍transformer的博客知乎,都是站在NLP领域的角度写的,因此共识部分都是一笔带过,本文的出发点是要让CV人读得懂。

    (注:本文是本人在内部分享会上的做的ppt,要转换成文章太费时间,这里直接使用ppt图片,原ppt很多内容都是口头讲的,且很多都是原论文引文,这里为了介绍清楚,在其基础上加入了很多口头上讲的东西,并将英文改成了中文,希望读者能谅解)

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

图片

参考链接1.《Attention Is All You Need》2.https://zhuanlan.zhihu.com/p/547439413.https://juejin.cn/post/6844903680487981069#comment4.《The Annotated Transformer》:http://nlp.seas.harvard.edu/2018/04/03/attention.html5.https://zhuanlan.zhihu.com/p/478123756.https://link.zhihu.com/?target=https%3A//lilianweng.github.io/lil-log/2018/06/24/attention-attention.html

声明:本公众号所有内容都本着态度严谨、力求准确的写文原则,所有原创文章都注重于原论文,极少参考部分都经过与原论文的对照,解释合理、确认无误才会写上,当然仍不可避免会出现错误,欢迎读者指出,本人将及时更正。(写这条是因为看到的所有博客(大概四五篇)都在某一个地方写错了,本人在ppt中给出了具体位置)

本文来源于微信公众号“ CV技术指南 ”的模型总结部分 。更多内容与最新技术动态尽在公众号发布。

欢迎关注公众号“CV技术指南”,主要进行计算机视觉方向的论文解读,最新技术跟踪,以及CV技术的总结。正在进行的系列有网络模型解读、行为识别和CV技术总结。

原创文章第一时间在公众号中更新,博客只在有空时间才更新公众号文章

  • 1
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值