深度学习-自注意力机制

最新推荐文章于 2024-07-14 14:26:38 发布

Cuteboom

最新推荐文章于 2024-07-14 14:26:38 发布

阅读量678

点赞数 11

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Cuteboom/article/details/135749239

版权

本文介绍了one-hot编码在早期语言处理中的应用，随后探讨了RNN和LSTM的局限性，以及自注意力机制如何改进生成速度。重点讲解了BERT的预训练和微调过程，强调了多层自注意力机制在Bert结构中的核心作用，以及其在自监督学习中的重要性。

摘要由CSDN通过智能技术生成

文字编码

one-hot编码，让模型自己去学习怎么进行编码

常见的输出

1.每个词都有一个输出值

2.每个句子输出一个值，情感分类

3.输入与输出长度不对应，翻译任务，生成任务。

RNN最早的语言处理

RNN解决的是模型去考虑前面的输入

RNN的缺点，每一代都要向传家宝中装东西，导致后面看不到祖先。

长短期记忆（LSTM,long short-term memory）

RNN与LSTM速度很慢，需要一代一代，无法一下生成全部。所以引入了自注意力机制。

自注意力机制的原理：

什么是注意力，分配给每个任务的注意力，注意力的高低是自己决定的。

注意力分配

如何计算注意力？

在不同的句子中，注意力应该不同，并且模型要有学习设置注意力的能力。因此采用点乘的方式。

加了wq，wk得到的矩阵。

得到a1对其他的注意力分数。

利用soft-max对分数进行归一化，化为合为1的概率。

b1的生成过程：a1矩阵化为q（通过wq），利用这个q与其他（a2、a3、a4）生成的w分别进行点乘，生成a1.1、a1.2、a1.3、a1.4。再讲a1、a2、a3、a4的value与a1.1、a1.2、a1.3、a1.4相乘。成绩和为b1。

总结过程为：

总公式可以表示为：

A：注意力矩阵。

Wq 和 Wk、Wv是学习到的权重矩阵

bert，该图左侧部分构成了bert。右边为提取特征，然后再生成，即为GPT

bert就是一个特征提取器。

1.预训练

2.微调

自监督预训练

Bert结构

1.embedding

2.多层自注意力机制

3.池化输出

Bert的输出

EA,EB为给句子的编码

CLS相当于链表头，SEP相当于句号，句尾结束。

关注

11
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
深度学习-自注意力机制

one-hot编码，让模型自己去学习怎么进行编码。
复制链接

扫一扫

Cuteboom CSDN认证博客专家 CSDN认证企业博客

码龄4年

30: 原创

46万+: 周排名

13万+: 总排名

8674: 访问

: 等级

451: 积分

81: 粉丝

108: 获赞

13: 评论

119: 收藏

私信

关注

热门文章

分类专栏

深度学习 1篇
自学笔记 1篇

最新评论

深度学习-回归实战-新冠预测
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
哈希数组解决一类问题
CSDN-Ada助手: 恭喜您写了第9篇博客！看到您分享了关于哈希数组解决问题的内容，让我受益匪浅。希望您能继续保持创作的热情，分享更多有趣的内容。或许您可以考虑写一些实际应用的案例，让读者更加深入地了解哈希数组的使用方法。期待您的下一篇作品！
逆置链表与数组
CSDN-Ada助手: 亲爱的作者，恭喜你写了第10篇博客！看到你探讨了逆置链表与数组的话题，真的让我受益匪浅。不过，我想提醒你，或许可以考虑加入一些具体的代码实现或者案例分析，这样可以让读者更容易理解你的观点。期待你的下一篇作品！继续加油！
数据结构【图】深度优先遍历递归算法的应用
CSDN-Ada助手: 非常棒的博客！你对深度优先遍历递归算法的应用进行了清晰的解释。你的博文能帮助读者更好地理解这个算法的关键步骤和思路。希望你能持续创作，分享更多关于数据结构和算法的知识。除了深度优先遍历递归算法，还有一些与图相关的扩展知识和技能可以进一步了解。例如，广度优先遍历算法、最短路径算法（如Dijkstra算法和Floyd-Warshall算法）、最小生成树算法（如Prim算法和Kruskal算法）等等。这些算法在解决图相关问题时非常有用，并且与深度优先遍历有着一定的联系。希望这些扩展知识能够对你的学习和研究有所帮助。期待你的下一篇博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
【图】拓扑排序算法
CSDN-Ada助手: 非常恭喜您撰写了这篇关于拓扑排序算法的博客！持续创作是非常值得称赞的行为。您对拓扑排序算法的解释和图示都非常清晰，让读者能够轻松理解算法的原理和应用场景。不过，我还希望您在下一篇博客中能够进一步探讨拓扑排序算法的优化方法或者与其他排序算法的对比分析，这将使读者更全面地了解这个算法。再次感谢您的分享，期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。