NLP-Transformer + Attention

最新推荐文章于 2024-02-05 22:43:39 发布

Swayzzu

最新推荐文章于 2024-02-05 22:43:39 发布

阅读量775

点赞数

分类专栏： NLP 文章标签：深度学习自然语言处理 transformer attention

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Swayzzu/article/details/121616175

版权

NLP 专栏收录该内容

32 篇文章 2 订阅

订阅专栏

目录

三、Attention

3.“多头” attention

一、概述

之前的RNN, LSTM或者bi-directional LSTM等，虽然每一个都有一定的改进，但依旧是处理的时序模型，当句子非常长的时候，还是会有以下问题：

1.难以处理相距太远的单词之间的依赖关系

2.计算时间复杂度高，这个是时序模型的通病，只要句子很长，计算速度就会变慢

3.是浅层模型（纵向的角度）

。而这个transformer，并不是时序模型，但也要捕获时序的特点。

Transformer中用到了self attention，就是对句子本身进行的注意力机制操作。

二、结构

1.整体结构

transformer整体结构如下：

通过encoder模块，将输入的序列（x1,x2,...,xn）映射到一个新的序列z =（z1,z2,...,zn）。

在decoder中，对于z进行解码，每一次解码得到一个输出。每一个encoder模块，和decoder模块都是如下的结构：

2.Encoder

encoder是有6个相同的层组成，每一个层由2个子层组成。

第一个子层实现了“多头”的self-attention，第二个子层是一个position-wise的全连接前馈网络。

另外，encoder端加入了一个位置信息的embedding，直接使用加法。

3.Decoder

decoder也是有6个相同的层组成。在encoder的层中出现的2个子层，在decoder子层中也有，只不过在这两个子层中间，又添加了一个子层，对encoder的输出实行“多头”的attention

三、Attention

1.概述

Self Attention是自己对自己的上下文信息进行考虑，把上下文的单词的信息也融合到当前的单词中。

2.流程

①先对单词进行embedding，得到每一个单词的词向量。

②创建QKV参数矩阵，这三个矩阵是线性转换的矩阵，针对每个输入都可以得到三个不同的向量qkv。q是单词本身的，用来和各个单词的k进行计算得到权重；k用来和其他单词计算权重；v是value，相当于把单词的词向量的信息，映射到了v这个向量中。

③计算每个单词的q,k,v向量，比如输入的词向量是1*4的，WKV矩阵是4*3的，那么计算出的q,k,v向量是1*3的。假设已计算出句子中，挨着的两个词thinking和machines的qkv矩阵，分别为q1, k1, v1; q2, k2, v2

④计算两两之间的dependency，对于thinking来说，我们需要计算：跟它本身的分数q1*k1，跟machine的分数q1*k2。因此两个单词计算出来是个2*2的结果。如果句子中有10个词，那就是10*10的矩阵。

⑤对分数进行除以sqrt(向量长度)，然后进行softmax转换，得到权重。

⑥最后把每个词的v和各自的权重相乘，再相加，就是thinking这个词的输出。

图中：z1 = 0.88*v1 + 0.12*v2

3.“多头” attention

前面的计算，是只有一组QKV的，这样虽然考虑到了所有的词，但很可能中心词的权重占的过大，而导致在句子中碰见类似于it这样的词的时候，不清楚指代的到底是什么，于是在transformer中，使用了多组的QKV：

原本计算一次，就得到了一个z，也就是词的最终输出，现在我们重复计算多次，得到多个输出z。

对于这些z，我们拼接在一起，和一个大的权重矩阵相乘，得到最终的结果。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
NLP-Transformer + Attention

transformer以及attention简介
复制链接

扫一扫

专栏目录

博客等级

码龄3年

103
原创

60
点赞

422
收藏

29
粉丝

关注

私信

热门文章

分类专栏

CV 18篇
NLP 32篇
知识图谱 1篇
机器学习基础 10篇
深度学习 26篇
数据结构笔记 7篇
opencv 3篇
MySQL 4篇
Linux 3篇

最新评论

PyTorch自建数据集+可视化结果
Swayzzu: 你调试一下，打断点到这个位置看看，意思是这个地方应该是一个可迭代的对象（比如list类型之类的），但发现这个对象是个None，没法迭代
PyTorch自建数据集+可视化结果
学习成长记: 我在进行数据集导入时，出现错误：TypeError Traceback (most recent call last) Cell In[7], line 1 ----> 1 train_dataset = InfrasoundDataset('dataset',256, 'train') 2 val_dataset = InfrasoundDataset('dataset',256, 'val') 3 test_dataset = InfrasoundDataset('dataset',256, 'test') Cell In[6], line 15, in InfrasoundDataset.__init__(self, root, resize, mode) 12 self.name2label[name] = len(self.name2label.keys()) 13 # print(self.name2label) 14 # 加载或创建CSV文件并存储数据 ---> 15 self.images, self.labels = self.load_csv('Raw_TIFs.csv') 17 # 取train, val, test数据集 18 if mode=='train': TypeError: cannot unpack non-iterable NoneType object。请问这个是为什么？
KBQA-Bert学习记录-CRF模型
Swayzzu: 建议调试检查下维度吧，看看是哪一行报的，然后断点打到那行，看看维度最后一个是不是10，代码预期是5
KBQA-Bert学习记录-CRF模型
qq_54412326: ValueError: expected last dimension of emissions is 5, got 10大佬，报错这个想问一下时什么问题呢
时间复杂度-主定理分析
狼堡你灰叔371: 虽然不太专业但是做题的话真是个小妙招给你点赞

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。