基于Transformers的自然语言处理入门【二】-Transformer相关原理

1 Tansformer相关原理

对于Transformer相关学习,我们的学习路径:Attention->Transformer-Bert-NLP。Attention出现的原因是什么:基于循环神经网络(RNN)一类的seq2seq模型,在处理长文本时遇到了挑战,而对长文本中不同位置的信息进行attention有助于提升RNN的模型效果。

1.1 seq2seq框架

seq2seq是一种常见的NLP模型结果,即为"端到端",具体相关的开创性论文:Sutskever等2014年发表的Sequence to Sequence Learning with Neural NetworksCho等2014年发表的Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation
端到端模型说白了从一个序列模型到领一个序列模型。它由编码器和解码器组成。seq2seq模型中的编码器和解码器一般采用的是循环神经网络RNN(Transformer模型还没出现的过去时代),编码器将输入的序列编码成context向量,然后解码器根据context向量解码出来对应的序列,如机器翻译,输入法语序列,输出英语序列。其中context的数组长度是基于编码器RNN隐藏层神经元数量的。
RNN具体处理过程:

  1. 假设序列输入是一个句子,这个句子可以由n个词标识:sentence={w1, w2,…,wn};
  2. RNN首先将句子中的每一个词映射称为一个向量得到一个向量序列:X={x1,x2, …, wn},每个单词映射得到的向量通常叫做word embedding。
  3. 然后在处理t 属于[1,n]个时间步的序列输入xt时,RNN网络的输入和输出可以表示为ht=RNN(xt, ht-1
  • 输入:RNN在时间步t的输入之一为单词wt经过映射得到的向量xt
  • 输入:RNN在另一个输入为上一个时间步t-1得到的hidden state向量ht-1,同样是一个向量。
  • 输出:RNN在时间步t的输出为ht hidden state向
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值