NLP入门之新闻文本分类竞赛——BERT

最新推荐文章于 2024-07-20 21:57:07 发布

一阵星星雨

最新推荐文章于 2024-07-20 21:57:07 发布

阅读量1k

点赞数 1

分类专栏： competition 文章标签：深度学习 python nlp 算法

本文链接：https://blog.csdn.net/qq_39526018/article/details/107792709

版权

本文介绍了Transformer模型的整体框架，重点解析Encoder层，包括self-attention的计算过程、多头机制、Positional Encoding的重要性。Decoder层中讲解了MASK机制及其在新闻文本分类中的应用。

摘要由CSDN通过智能技术生成

一、Transformer模型整体框架

在这里插入图片描述

二、Encoder层

1、首先，self-attention会计算出三个新的向量，在论文中，向量的维度是512维，我们把这三个向量分别称为Query:要去查询的、Key:等着被查的、Value:实际的特征信息，这三个向量是用embedding向量与一个矩阵相乘得到的结果，这个矩阵是随机初始化的，维度为（64，512）注意第二个维度需要和embedding的维度一样，其值在BP的过程中会一直进行更新，得到的这三个向量的维度是64低于embedding维度的。

在这里插入图片描述

2、计算self-attention的分数值，该分数值决定了当我们在某个位置encode一个词时，对输入句子的其他部分的关注程度。这个分数值的计算方法是Query与Key做点成，以下图为例，首先我们需要针对Thinking这个词，计算出其他词对于该词的一个分数值，首先是针对于自己本身即q1·k1，然后是针对于第二个词即q1·k2。
在这里插入图片描述

3、然后把得到的结果做一个softmax的计算。得到的结果即是每个词对于当前位置的词的相关性大小，当然，当前位置的词相关性肯定会会很大，下一步就是把Value和softmax得到的值进行相乘，并相加，得到的结果即是self-attetion在当前节点的值。
在这里插入图片描述

4、self-attention加入的一个机制——多头机制。通过不同的head得到多个特征表达，将所有特征拼接在一起，可以通过再一层全连接来降维具体，过程如下图。

在这里插入图片描述

5、transformer模型中还缺少一种解释输入序列中单词顺序的方法。为了处理这个问题，transformer给encoder层和decoder层的输入添加了一个额外的向量Positional Encoding，维度和embedding的维度一样，这个向量采用了一种很独特的方法来让模型学习到这个值，这个向量能决定当前词的位置，或者说在一个句子中不同的词之间的距离。这个位置向量的具体计算方法有很多种，论文中的计算方法如下：