2018 NLP

自然语言处理概述(前沿、数据集、下游任务)
https://blog.csdn.net/xuan100e/article/details/89544956

ELMo(Embeddings from Language Models)是一种动态的,语境化的词向量表示方法,可以根据上下文语境来生成相应词的向量表示

ELMo通过深度双向语言模型(biLM)进行训练,主要解决了两个问题:
(1) 学习词汇用法的复杂特性,如语法和语义;
(2) 学习词汇不同语境下的一词多义性;

ELMo是一种动态词向量表示方法,其最终训练得到一个语言模型
ELMo模型从大规模语料上训练得到的深度双向语言模型(deep biLM)的内部状态学习得到,因此,ELMo的词向量表示是深度的,是biLM内部各层状态的线性组合,而非仅仅取LSTM的最后一层。

NLP 的巨人肩膀(下):从 CoVe 到 BERT
https://www.jiqizhixin.com/articles/2018-12-17-17

Encoder-Decoder(编码-解码)是深度学习中非常常见的一个模型框架,比如无监督算法的auto-encoding就是用编码-解码的结构设计并训练的;比如这两年比较热的image caption的应用,就是CNN-RNN的编码-解码框架;再比如神经网络机器翻译NMT模型,往往就是LSTM-LSTM的编码-解码框架。因此,准确的说,Encoder-Decoder并不是一个具体的模型,而是一类框架。Encoder和Decoder部分可以是任意的文字,语音,图像,视频数据,模型可以采用CNN,RNN,BiRNN、LSTM、GRU等等。所以基于Encoder-Decoder,我们可以设计出各种各样的应用算法。

Encoder-Decoder框架有一个最显著的特征就是它是一个End-to-End学习的算法;本文将以文本-文本的例子作为介绍,这样的模型往往用在机器翻译中,比如将法语翻译成英语。这样的模型也被叫做 Sequence to Sequence learning[1]。所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列

Attention Model
自注意力是为给整个句子所有的单词一定的权重,得到一定的关注。此处,引入self-attention层,当然是为了让每个单词在进行编码时,都能关注要句子的其他单词。
然后自注意力层的输出送到前馈神经网络,注意,这里每个单词对应的前馈神经网络都是一样的。

GPT:generative pre-train model
GPT的精髓可以说就是Transformer了,可惜的就是GPT采用的单向语言模型:
第一阶段:用语言模型做预训练,第二阶段通过fine-tuning的模式解决下游任务

从Seq2Seq,Attention,Transformer到ELMo,BERT,GPT-2(二)
https://blog.csdn.net/liuy9803/article/details/88082653

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值