语言模型
文章平均质量分 92
林ch
这个作者很懒,什么都没留下…
展开
-
GloVe原理介绍
1. 引言当前,学习词向量表示的方法主要有两种类型:一种是基于全局矩阵分解的方法,如LSA,另一种是局部上下文窗口的方法,如Mikolov在2013年提出来的CBOW和skip-gram方法。但是这两种方法都有各自的缺陷,其中,LSA虽然有效利用了统计信息,但是在词汇类比方面却很差,而CBOW和skip-gram虽然可以很好地进行词汇类比,但是因为这两种方法是基于一个个局部的上下文窗口方法,因此...原创 2019-07-24 19:27:53 · 21478 阅读 · 3 评论 -
ELMo原理介绍
1. 引言在2018年之前,词向量表示的方法主要还是采用CBOW、skip-gram、GloVe等方法,这些方法都是采用一个固定维度的向量来表征每一个词汇或字符,虽然方法简单,但是会存在两个问题,一方面是没有考虑词汇在不同语境的信息,比如”apple"在一些场景下可以表示水果,在另一些场景下可能表示苹果公司,另一方面,采用一个固定的向量表示词汇,没有考虑到语法和语义的信息。因此,在2018年,M...原创 2019-07-25 13:03:51 · 4711 阅读 · 0 评论 -
GPT原理介绍
1.引言前面我们介绍了ELMo算法的思想,通过在大量的语料上预训练语言模型,然后再将预训练好的模型迁移到具体的下游NLP任务,从而提高模型的能力。但是ELMo预训练的语言模型结构和下游的NLP任务的模型经常会不一致,因此,做迁移学习时经常没法将两者的模型直接进行融合,因此,本文将介绍OpenAI在2018年提出来的一个方法——GPT,该模型在预训练语言模型的基础上,只需要做一些微改即可直接迁移到...原创 2019-07-25 18:10:21 · 21779 阅读 · 2 评论 -
BERT原理介绍
1. 引言2018年,谷歌提出了一个新的模型BERT(Bidirectional Encoder Representations from Transformers),刷榜了11项NLP任务,可以说是NLP的一个新的里程碑。它的思想其实跟我们前面介绍的GPT模型非常相似,只是GPT只考虑单向语言模型,即GPT采用的是Transformer中decoder的结构,而BERT考虑的是深层双向语言模型...原创 2019-07-26 14:54:06 · 2888 阅读 · 0 评论 -
Transformer XL原理介绍
1. 引言在自然语言处理中,当前深度学习主流的结构是RNN和Transformer,因为这两种结构能够比较好地捕捉文本的上下文信息,但是,我们知道RNN主要的问题是梯度消失和梯度爆炸的问题,而且其捕捉上下文的长度没有Transformer那么强大,而Transformer虽然能力比较强,但是在预测时会受到训练时所设定的最大长度限制,因此,本文将介绍一个Transformer模型的变体,即Tran...原创 2019-08-22 11:12:34 · 1339 阅读 · 0 评论