transformer的理解

最新推荐文章于 2024-07-30 11:00:20 发布

Alan and fish

最新推荐文章于 2024-07-30 11:00:20 发布

阅读量1.2k

点赞数

分类专栏： # NLP基础知识文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35653657/article/details/126003416

版权

NLP基础知识专栏收录该内容

14 篇文章 8 订阅

订阅专栏

1.二头注意机制

引入二头
这里二头注意力机制,其实就是将前面的q,k,v进行细分,分成两个,这样关注的信息就被细化了.

将权重w拆分成w^q,1,w^q,2两个权重参数,然后将a分别与两个权重参数进行点乘,得到了q^q,1和q^q,2.
计算 $\alpha$
这个时候,将q的第一个头与每个k的第一个头进行计算,q的第二个头与k的第二头进行计算,就会得到两个 $\alpha$ ₁, $\alpha$ ₂
计算b

后面的步骤就和单头注意力机制是一样的了,区别在于多头注意力机制引入多个头,信息更细分了,要进行多个计算,结果更准确.

2.引入位置信息

注意力机制中存在一个缺陷,就是没有位置信息,所以给注意力机制引入了一个one-hot结构的位置矩阵.

将权重矩阵W拆分成W^I和W^P,然后与输入值x和位置信息p进行点乘,得到ei和 $\alpha$ i

3.transformer框架可视化理解

以机器翻译为例,输入一个机器学习,首先会经过编码,然后再经过解码,得到你想要的信息,tansformer机制就是一个编码和解码的过程.

输入的信息x会与一个one-hot编码的位置信息相结合,然后输入进一个self-attention多头注意力机制.然后将编码的结果作为解码的输入,将输入放到一个masked多头注意力机制,然后在经过self-attention注意力机制,最后经过一系列的操作得到最后的输出.
其中在编码的时候,添加了一个Norm层,Norm和Layer的区别就是,Norm是横向的,Layer是纵向的.

4.通过可视化看看注意力机制的效果

如图所示:
文中的it是一个代词,在这段文本中,it指代的是animal,所以它与animal的依赖更多一点,他们之间的关系线颜色更深.

5.单头注意力机制与多头注意力机制的效果对比

上面绿色的是多头注意力机制,下面红色的是单头注意力机制,从图中可以看出,多头注意力机制关注的信息跟多一些.

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。