自然语言处理（十一）

最新推荐文章于 2023-10-18 17:24:01 发布

dayday学习

最新推荐文章于 2023-10-18 17:24:01 发布

阅读量593

点赞数

分类专栏：自然语言处理文章标签：自然语言处理（十一） BERT Transformer

本文链接：https://blog.csdn.net/weixin_41781408/article/details/88707891

版权

自然语言处理（十一）--BERT1. Transformer的原理。1.1介绍1.2.Transformer模型结构1.3 输入层,位置向量1.4 Attention模型2. BERT的原理。3. 利用预训练的BERT模型将句子转换为句向量，进行文本分类。1. Transformer的原理。1.1介绍谷歌在2017年发表了一篇论文名字教Attention Is All You Need，提出...

摘要由CSDN通过智能技术生成

1. Transformer的原理。

1.1介绍

谷歌在2017年发表了一篇论文名字教Attention Is All You Need，提出了一个只基于attention的结构来处理序列模型相关的问题，比如机器翻译。传统的神经机器翻译大都是利用RNN或者CNN来作为encoder-decoder的模型基础，而谷歌最新的只基于Attention的Transformer模型摒弃了固有的定式，并没有用任何CNN或者RNN的结构。该模型可以高度并行地工作，所以在提升翻译性能的同时训练速度也特别快。

1.2.Transformer模型结构

在这里插入图片描述
模型分为编码器和解码器两个部分。

编码器由6个相同的层堆叠在一起，每一层又有两个支层。第一个支层是一个多头的自注意机制，第二个支层是一个简单的全连接前馈网络。在两个支层外面都添加了一个residual的连接，然后进行了layer nomalization的操作。模型所有的支层以及embedding层的输出维度都是 d_model

解码器也是堆叠了六个相同的层。不过每层除了编码器中那两个支层，解码器还加入了第三个支层，如图中所示同样也用了residual以及layer normalization。具体的细节后面再讲。

1.3 输入层,位置向量

编码器和解码器的输入就是利用学习好的embeddings将tokens（一般应该是词或者字符）转化为d维向量。对解码器来说，利用线性变换以及softmax函数将解码的输出转化为一个预测下一个token的概率。
由于模型没有任何循环或者卷积，为了使用序列的顺序信息，需要将tokens的相对以及绝对位置信息注入到模型中去。论文在输入embeddings的基础上加了一个“位置编码”。位置编码和embeddings由同样的维度都是d_model所以两者可以直接相加。有很多位置编码的选择，既有学习到的也有固定不变的。

1.4 Attention模型

在这里插入图片描述

最低0.47元/天解锁文章

dayday学习

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理（十一）

自然语言处理（十一）--BERT1. Transformer的原理。1.1介绍1.2.Transformer模型结构1.3 输入层,位置向量1.4 Attention模型2. BERT的原理。3. 利用预训练的BERT模型将句子转换为句向量，进行文本分类。1. Transformer的原理。1.1介绍谷歌在2017年发表了一篇论文名字教Attention Is All You Need，提出...
复制链接

扫一扫

专栏目录