一文读懂transformer(CV专享)

最新推荐文章于 2024-05-13 21:05:10 发布

CV技术指南(公众号)

最新推荐文章于 2024-05-13 21:05:10 发布

阅读量2.6k

点赞数 1

分类专栏：网络模型解读 CV技术总结文章标签：计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/KANG157/article/details/111499713

版权

CV技术总结同时被 2 个专栏收录

66 篇文章 36 订阅

订阅专栏

网络模型解读

17 篇文章 1 订阅

订阅专栏

导言：

transformer在这两年大火，CV界广泛应用transformer模型，充分吸收其idea到自己的领域。考虑到transformer本是应用于NLP的论文，其中很多内容都形成了共识，因此在论文中并未提及，就好像CV中论文提到图像预处理使用center crop , color jitter，但不会详细介绍这两个，这就是CV领域的共识，其他领域的人看到这两个将会很困惑，作为CV中人读transformer会被很多共识内容所折磨，包括很多介绍transformer的博客知乎，都是站在NLP领域的角度写的，因此共识部分都是一笔带过，本文的出发点是要让CV人读得懂。

（注：本文是本人在内部分享会上的做的ppt，要转换成文章太费时间，这里直接使用ppt图片，原ppt很多内容都是口头讲的，且很多都是原论文引文，这里为了介绍清楚，在其基础上加入了很多口头上讲的东西，并将英文改成了中文，希望读者能谅解）

参考链接1.《Attention Is All You Need》2.https://zhuanlan.zhihu.com/p/547439413.https://juejin.cn/post/6844903680487981069#comment4.《The Annotated Transformer》：http://nlp.seas.harvard.edu/2018/04/03/attention.html5.https://zhuanlan.zhihu.com/p/478123756.https://link.zhihu.com/?target=https%3A//lilianweng.github.io/lil-log/2018/06/24/attention-attention.html

声明：本公众号所有内容都本着态度严谨、力求准确的写文原则，所有原创文章都注重于原论文，极少参考部分都经过与原论文的对照，解释合理、确认无误才会写上，当然仍不可避免会出现错误，欢迎读者指出，本人将及时更正。（写这条是因为看到的所有博客（大概四五篇）都在某一个地方写错了，本人在ppt中给出了具体位置）

本文来源于微信公众号“ CV技术指南 ”的模型总结部分。更多内容与最新技术动态尽在公众号发布。

欢迎关注公众号“CV技术指南”，主要进行计算机视觉方向的论文解读，最新技术跟踪，以及CV技术的总结。正在进行的系列有网络模型解读、行为识别和CV技术总结。

原创文章第一时间在公众号中更新，博客只在有空时间才更新公众号文章

CV技术指南(公众号)

关注

1
点赞
踩
26

收藏

觉得还不错? 一键收藏
2
评论
一文读懂transformer(CV专享)

导言： transformer在这两年大火，CV界广泛应用transformer模型，充分吸收其idea到自己的领域。考虑到transformer本是应用于NLP的论文，其中很多内容都形成了共识，因此在论文中并未提及，就好像CV中论文提到图像预处理使用center crop , color jitter，但不会详细介绍这两个，这就是CV领域的共识，其他领域的人看到这两个将会很困惑，作为CV中人读transformer会被很多共识内容所折磨，包括很多介绍transformer的博客知乎，都是站...
复制链接

扫一扫

专栏目录