NLP-task4 EMLO &BERT Models

学机器学习的机械工程师

于 2020-07-03 18:56:21 发布

阅读量235

点赞数

分类专栏： NLP

本文链接：https://blog.csdn.net/abc360605383/article/details/107111987

版权

NLP 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

ELMO模型

论文摘要

本文作者推出了一种新的基于深度学习框架的词向量表征模型，这种模型不仅能够表征词汇的语法和语义层面的特征，也能够随着上下文语境的变换而改变。简单来说，本文的模型其实本质上就是基于大规模语料训练后的双向语言模型内部隐状态特征的组合。实验证明，新的词向量模型能够很轻松的与NLP的现有主流模型相结合，并且在六大NLP任务的结果上有着巨头的提升。同时，作者也发现对模型的预训练是十分关键的，能够让下游模型去融合不同类型的半监督训练出的特征。

核心思想

每个词对应一个vector，对于多义词无能为力，或者随着语言环境的改变，这些vector不能准确的表达相应特征。ELMo的作者认为好的词表征模型应该同时兼顾两个问题：一是词语用法在语义和语法上的复杂特点；二是随着语言环境的改变，这些用法也应该随之改变。

ELMO（Embeddings from Language Models）模型，从他的缩写就可以看出，他的模型本质是从语言模型而来的。思想如下：

先在大语料上以language model为目标训练出bidirectional LSTM模型
然后利用LSTM产生词语的表征

ELMo模型包含多layer的bidirectional LSTM，可以这么理解:

高层的LSTM的状态可以捕捉词语意义中和语境相关的那方面的特征(比如可以用来做语义的消歧)，而低层的LSTM可以找到语法方面的特征(比如可以做词性标注)。

模型细节

使用长上下文而不是上下文窗口学习 word token 向量(这里，整个句子可能更长)
学习深度Bi-NLM，并在预测中使用它的所有层
训练一个双向LM
目标是 performant 但LM不要太大
- 使用2个biLSTM层
- (仅)使用字符CNN构建初始单词表示
- 2048 个 char n-gram filters 和 2 个 highway layers，512 维的 projection
- 4096 dim hidden/cell LSTM状态，使用 512 dim的对下一个输入的投影
- 使用残差连接
- 绑定 token 的输入和输出的参数(softmax)，并将这些参数绑定到正向和反向LMs之间
ELMo学习biLM表示的特定任务组合
这是一个创新，TagLM 中仅仅使用堆叠LSTM的顶层，ELMo 认为BiLSTM所有层都是有用的

GPT模型

留个坑

BERT模型

ERT的全称是Bidirectional Encoder Representation from Transformers，即双向Transformer的Encoder。模型的主要创新点都在pre-train方法上，即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。

BERT采用了Transformer Encoder的模型来作为语言模型，Transformer模型来自于经典论文《Attention is all you need》, 完全抛弃了RNN/CNN等结构，而完全采用Attention机制来进行input-output之间关系的计算，如下图所示：

和其他模型区别如下图：

BERT模型与OpenAI GPT的区别就在于采用了Transformer Encoder，也就是每个时刻的Attention计算都能够得到全部时刻的输入，而OpenAI GPT采用了Transformer Decoder，每个时刻的Attention计算只能依赖于该时刻前的所有时刻的输入，因为OpenAI GPT是采用了单向语言模型。