从编解码和词嵌入开始，一步一步理解Transformer，注意力机制(Attention)的本质是卷积神经网络(CNN)（3）（注意力机制）

叼根棒棒糖闯天下！

已于 2024-06-24 16:24:22 修改

阅读量1.1k

点赞数 19

文章标签： transformer cnn 深度学习

于 2024-06-24 16:19:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_20466297/article/details/139916641

版权

1.注意力机制首先，请各位看官大老爷，看这个图。在这个图上，最下面有输入和输出。这就相当于我们前面说的自然语言处理。左边输入中文，他会自动的翻译成英文，从右边输出。当然，这是在训练好的情况下。如果是为了训练，左边和右边都是一种输入。分别把中文和英文语义相同的语料输入到模型里面，最后输出的是图中最上面的那部分。一个是损失函数在上面，通过损失函数的值，在进行反向传播，去修改里面的参数。我们看一下最下方，输入和输出都有一个Embedding ,也就是说，输入，和输出都是先转换成词向量，然后再去进行后续的操作。也即是说，这一层已经有一个嵌入矩阵了。这个嵌入矩阵也不是死的，需要在训练时进行调整参数。这个过程就是相当于准备好词典。把单个token词义都查出来。词和词组合之后的语义，是需要在现在的基础之上，在进行分析和理解的。对词和词组合之后的语义理解，靠的就是注意力机制。就是图中橙色的部分。这就是transformer的核心。

在这里插入图片描述

2.什么是注意力？怎么理解注意力理解注意力机制，最直接的方法，请看下面的这张图。

在这里插入图片描述
下面，解释一下这张图。作为一组词向

最低0.47元/天解锁文章

叼根棒棒糖闯天下！

博客等级

码龄11年

22
原创

159
点赞

166
收藏

123
粉丝

关注

私信

热门文章

分类专栏

时间序列预测 3篇

最新评论

【无标题】
CSDN-Ada助手: 恭喜作者继续创作，并感谢您与我们分享您的思想。在下一篇博客中，我们期待您能为我们带来一个有趣的标题，让我们更好地了解您的故事。祝您创作愉快！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
windows 查看占用端口的进程并且杀死进程
CSDN-Ada助手: 非常感谢您的分享和教程！您的博文对于我们这些初学者来说非常有帮助。希望您能继续分享更多的技巧和经验，让我们受益匪浅。另外，除了使用taskkill命令，我们还可以使用Process Explorer等工具来查看和杀死进程，这也是一个扩展的知识点。感谢您的分享，期待您的下一篇博文。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。