Self-attention与multi-head self-attention

最新推荐文章于 2024-09-11 19:40:47 发布

星辰漫步之LLM

最新推荐文章于 2024-09-11 19:40:47 发布

阅读量930

点赞数 19

分类专栏：大语言模型文章标签：自然语言处理机器学习深度学习 attention 注意力机制 LLM 大语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hhl_csdn/article/details/136308163

版权

本文介绍了自注意力和多头自注意力机制，强调了它们在处理序列数据时捕捉依赖关系的能力，特别是在长文本中的应用。文章详细解释了计算注意力分数、多头自注意力的步骤，包括投影、头的拆分和合并，以及如何通过这些步骤增强模型处理复杂关系的能力。

摘要由CSDN通过智能技术生成

自注意力（self-attention）允许模型在处理序列数据时，根据输入中的其他位置来加权考虑每个位置的信息。这对于处理长文本或序列中的依赖关系非常有用。

多头自注意力（multi-head self-attention）建立在自注意力机制之上，它通过允许模型同时关注不同表示子空间的信息，来增强模型捕捉不同类型的关系和依赖性的能力。

虽然自注意力专注于捕捉序列内部的依赖关系，但多头自注意力通过利用多个注意力头来捕捉不同类型的关系和依赖关系，提高了这种捕捉能力。

自注意力机制的实现：

计算注意力分数（Attention Scores）：
给定一个输入序列 $X$ ，我们首先将其投影到查询 $Q$ ，键 $K$ ，和值 $V$ 的向量空间中，这是通过学习得到的权重矩阵 $W_Q$ ， $W_K$ ， $W_V$ 实现的。然后，我们计算查询与键的点积，最后通过 softmax 函数进行标准化，得到注意力分数：

$\text{Attention Scores} = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)$

最低0.47元/天解锁文章

星辰漫步之LLM

关注

19
点赞
踩
27

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。