Transformer是如何执行attention的？

最新推荐文章于 2023-12-29 12:44:17 发布

harry_tea

最新推荐文章于 2023-12-29 12:44:17 发布

阅读量311

点赞数

分类专栏： PaperReading 文章标签： transformer 自然语言处理深度学习

本文链接：https://blog.csdn.net/weixin_41978699/article/details/122463093

版权

PaperReading 专栏收录该内容

11 篇文章 2 订阅

订阅专栏

在微信公众号上看到过一篇文章：https://mp.weixin.qq.com/s/pEGAc5Q6EDbIc7ysFC1WmA，这篇文章详细的介绍了Transformer的attention是如何执行的，这里我进行了总结，然后将transformer中的attention以及non-local中的attention进行了比较

transformer与non local对比

non-local原文地址：https://arxiv.org/pdf/1711.07971.pdf
non-local讲解：https://blog.csdn.net/weixin_41978699/article/details/122461611
知乎问题：https://www.zhihu.com/question/427061585/answer/1541669750

根据网上的一些结论和我的理解，这里总结了二者的区别与联系

联系

二者均建立了长距离依赖关系，但是Transformer提供了一种pipeline，而non-local只是一种算子（可以理解为trick？）
non-local=transformer的single head attention，但是non local并没有涉及到FNN(即MLP) - pos embedding，所以MLP对于attention很重要？

区别

Non-local只做特征提取，并没有跳出CNN的范畴，依然以CNN为主要架构，只是在CNN处理的过程中用了attention思想进行一定处理的一个模块；而transformer则完全抛弃了CNN，整个pipeline看起来更简洁，可以理解为和CNN并列的一个工作
接上条，对于CNN来说，将non local作为了辅助模块；而对于transformer来说却将attention作为核心模块（卷积和attention地位颠倒），但是可能会加一些卷积层，因为注意力并不擅长底层特征的提取，其余的建模交给注意力机制
CNN需要处理高分辨率的特征图并且引入相对位置表征，在GPU上的效率不高
transformer如果完全抛弃卷积，由于缺乏平移不变性的先验，对数据量和训练长度的要求很高，不能高效的学习，所以一般会做与训练模型，如果没有大量的数据进行预训练，建议保留部分卷积层
transformer处理为序列，而CNN为图像

harry_tea

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer是如何执行attention的？

在微信公众号上看到过一篇文章：https://mp.weixin.qq.com/s/pEGAc5Q6EDbIc7ysFC1WmA，这篇文章详细的介绍了Transformer的attention是如何执行的，这里我进行了总结，然后将transformer中的attention以及non-local中的attention进行了比较...
复制链接

扫一扫