基于Transformers的自然语言处理入门【二】-Transformer相关原理

最新推荐文章于 2023-11-30 09:40:21 发布

hezzfew

最新推荐文章于 2023-11-30 09:40:21 发布

阅读量385

点赞数

分类专栏：自然语言处理文章标签： transformer 自然语言处理神经网络

本文链接：https://blog.csdn.net/hezzfew/article/details/120267567

版权

基于Transformers的自然语言处理入门（二）

1 Tansformer相关原理

1 Tansformer相关原理

对于Transformer相关学习，我们的学习路径：Attention->Transformer-Bert-NLP。Attention出现的原因是什么：基于循环神经网络（RNN）一类的seq2seq模型，在处理长文本时遇到了挑战，而对长文本中不同位置的信息进行attention有助于提升RNN的模型效果。

1.1 seq2seq框架

seq2seq是一种常见的NLP模型结果，即为"端到端"，具体相关的开创性论文：Sutskever等2014年发表的Sequence to Sequence Learning with Neural Networks 和 Cho等2014年发表的Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation。
端到端模型说白了从一个序列模型到领一个序列模型。它由编码器和解码器组成。seq2seq模型中的编码器和解码器一般采用的是循环神经网络RNN（Transformer模型还没出现的过去时代），编码器将输入的序列编码成context向量，然后解码器根据context向量解码出来对应的序列，如机器翻译，输入法语序列，输出英语序列。其中context的数组长度是基于编码器RNN隐藏层神经元数量的。
RNN具体处理过程：

假设序列输入是一个句子，这个句子可以由n个词标识：sentence={w₁, w₂,…,w_n};
RNN首先将句子中的每一个词映射称为一个向量得到一个向量序列：X={x₁，x₂, …, w_n}，每个单词映射得到的向量通常叫做word embedding。
然后在处理t 属于[1,n]个时间步的序列输入x_t时，RNN网络的输入和输出可以表示为h_t=RNN（x_t， h_t-1）

输入：RNN在时间步t的输入之一为单词w_t经过映射得到的向量x_t。
输入：RNN在另一个输入为上一个时间步t-1得到的hidden state向量h_t-1，同样是一个向量。
输出：RNN在时间步t的输出为h_t hidden state向

最低0.47元/天解锁文章

hezzfew

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
基于Transformers的自然语言处理入门【二】-Transformer相关原理

基于Transformers的自然语言处理入门（二）1 Tansformer相关原理1.1 seq2seq框架三级目录1 Tansformer相关原理对于Transformer相关学习，我们的学习路径：Attention->Transformer-Bert-NLP。Attention出现的原因是什么：基于循环神经网络（RNN）一类的seq2seq模型，在处理长文本时遇到了挑战，而对长文本中不同位置的信息进行attention有助于提升RNN的模型效果。1.1 seq2seq框架seq2se
复制链接

扫一扫