【BERT】Transformer理论详解（一）

猎猎长风

已于 2022-02-18 12:18:46 修改

阅读量1.9k

点赞数 3

分类专栏：自然语言处理文章标签： transformer bert 深度学习

于 2021-04-13 12:33:44 首次发布

本文链接：https://blog.csdn.net/weixin_40633696/article/details/115657367

版权

自然语言处理专栏收录该内容

29 篇文章 12 订阅

订阅专栏

一、概述

二、Transformer和RNN

1. Transformer要做什么事？

2. 传统的RNN网络和Transformer

3. 传统的word2vec

三、Transformer

1. Attention

1.1 self-attention是什么

1.2 self-attention如何计算

1.3 每个词的Attention计算

1.4 Attention整体计算流程

2. multi-headed机制

2.1 multi-headed机制图解（1）

2.2 multi-headed机制图解（2）

2.3 multi-headed结果

3. encoder堆叠多层

4. 位置信息表达——Positional Encoding

5. Add与Normalize

5.1 Layer Normalization

5.2 Layer Normalization 和 Batch Normalization 对比

一、概述

Bert——自然语言处理通用解决方案

需要熟悉word2vec，RNN网络模型，了解词向量如何建模
重点在于Transformer网络架构，BERT训练方法，实际应用
开源项目，都是现成的，套用进去就OK
提供预训练模型，基本任务拿过来直接用即可

二、Transformer和RNN

1. Transformer要做什么事？

基本组成依旧是机器翻译模型中常见的Seq2Seq网络
输入输出都很直观，其核心架构就是中间的网络设计了

2. 传统的RNN网络和Transformer

计算时有什么问题？

不能并行计算

Self-Attention机制来进行并行计算，在输入和输出都相同
输出结果是同时被计算出来的，现在基本已经取代RNN了

3. 传统的word2vec

表示向量时有什么问题？答：预训练好的向量就永久不变了
如果‘干哈那’是一个词，不同语境中相同的词表达的含义不同

三、Transformer

输入如何编码？
输出结果是什么？
Attention的目的？
怎样组合在一起？

1. Attention

对于输入的数据，你的关注点是什么？
如何才能让计算机关注到这些有价值的信息？

1.1 self-attention是什么

1.2 self-attention如何计算

输入经过编码后得到的向量
想得到当前词与上下文的关系，可以当作是加权
构建三个矩阵分别来查询当前词跟其他词的关系，以及特征向量的表达

三个需要训练的矩阵

Q: query，要去查询的
K: key，等着被查的
V: value，实际的特征信息

q与k的内积表示有多匹配

输入两个词向量得到一个数值

得到的数值经过softmax就是最终上下文结果
Scaled Dot-Product Attention，不能让分值随着向量维度的增大而增加

softmax回忆：

1.3 每个词的Attention计算

每个词的Q会跟整个序列中每一个K计算得分，然后基于得分再分配特征（乘V矩阵）

1.4 Attention整体计算流程

每个词的Q会跟每一个K计算得分
Softmax后就得到整个加权结果
此时每个词看的不只是它前面的序列，而是整个输入序列
同一时间计算出所有词的表示结果（矩阵乘法）

例：一个句子中第一个词的q和其他词的k相乘并经过softmax的结果分别为0.13，0.21，0.53，0.13，则第一个词的self-attention（z1） = 0.13v1 + 0.21v2 + 0.53v3 + 0.13v4

2. multi-headed机制

一组q,k,v得到了一组当前词的特征表达
类似卷积神经网络中的filter，能不能提取多种特征呢？
卷积中的特征图：

通过不同的head得到多个特征表达
将所有特征拼接在一起
可以通过再一层全连接来降维

2.1 multi-headed机制图解（1）

2.2 multi-headed机制图解（2）

例：以两个head为例，将上面Scaled Dot-Product Attention中的q拆分为q1和q2（WQ拆分为WQ1和WQ2，WQ1*X=q1，WQ2*X=q2）。qi,1必须和ki,1或kj,1相乘最后乘以vi,1或vj,1，qi,2必须和ki,2或kj,2相乘最后乘以vi,2或vj,2。

也就是说，一句话中某个词的第1个head的q必须和其他词第1个head的k相乘，不能第1个head的q和其他词第2个head的k相乘。