NLP
博途慧算
这个作者很懒,什么都没留下…
展开
-
NLP(十二):Transformer-XL和XLNet
1.Transformer-XL1.1 Vanilla Transformer Language Models把长文本的输入切分成多个SegmentTransformer-XL: Attentive Language Models Beyond a Fixed-Length Context(Google)(ICLR 2019 被拒)基于一种相对位置编码方式建立循环的transformer建模机制,解决长文本的建模,捕获超长距离依赖。优点在几种不同的数据集(大/小,字符级别/单词级别等)均实现了最先原创 2020-08-29 12:09:45 · 1175 阅读 · 0 评论 -
NLP(十一):PaddlePaddle
1.框架图2.部署方案3.PaddleHub和PaddleNLPPaddleHub:对现有模型进行fine-tuningPaddleNLP:已经构建完成,可直接使用(情感分类)1)PaddleHub2)PaddleNLPPaddleNLP是百度开源方便开发者灵活插拔尝试多种网络结构,并且让应用最快速达到工业级效果。的工业级NLP工具与预训练模型集,能够适应全面丰富的NLP任务,PaddleNLP完全基于PaddlePaddle Fluid开发,并提供依托于百度百亿级大数据的预训练模型,能原创 2020-08-22 11:47:12 · 851 阅读 · 0 评论 -
NLP(十):ERNIE
1.ERNIEERNIE(Enhanced Representation through Knowledge Integration) 是百度基于BERT开发的NLP模型。ERNIE使用了更多的语料,除维基百科等数据集外,还使用了中文维基百科,百度百科,百度新闻,百度贴吧数据集。该模型的参数: L = 12,H = 768,A = 12 (BERT BASE)。ERNIE实现了实体级别的Mask,实体级别的连续Mask,改变了训练Task,而BERT是基于单字的Mask,其区别如下图所示:ERNIE原创 2020-08-22 11:21:25 · 1463 阅读 · 1 评论 -
NLP基础(九):BERT模型
1.原创 2020-08-17 21:41:33 · 1001 阅读 · 0 评论 -
NLP基础(八):ELMO和GPT模型
1.ELMOELMO(Embedding from Language Model)是一种基于LSTM的词向量的生成方式,采用两个单向LSTM。词向量的表示基于当前的句子上下文,高层LSTM捕捉上下文的词特征(语义),底层LSTM捕捉句法层次信息(语法)。网络架构如下图:其中,前向语言模型:后向语言模型:目标函数最大化:优点是解决了一词多义,在一些任务上有提升。缺点是LSTM串行,训练成本大,LSTM对长距离的提取特征不如Transformer。2.GPTGPT(Generative原创 2020-07-30 23:20:03 · 366 阅读 · 0 评论 -
NLP基础(七):Transformer模型和Self Attention自注意力机制
1.51)Positional Encoding2)Multi-Head Attention多层自注意力层原创 2020-07-28 21:50:35 · 3363 阅读 · 0 评论 -
NLP基础(六):GLOVE和FastText
1.GLOVEWord2vec只关注局部,没有考虑全文语言特征。因此引出使用全局统计信息的GLOVE(Global Vectors for Word Representation),融入全局的先验统计信息,可以加快模型的训练速度,又可以控制词的相对权重。现分别计算在ice和steam出现的情况下solid、gas、water、fashion出现的概率,如下表所示Probability and Ratiok=solidk=gask=waterk=fashionp(k|ice)原创 2020-07-21 20:02:29 · 257 阅读 · 0 评论 -
NLP基础(五):CopyNet和PGN模型
1.原创 2020-07-06 23:39:11 · 1509 阅读 · 0 评论 -
NLP基础(四):Seq2Seq模型Beam search、Scheduled Sampling和ROUGE
1.Beam search参考资料[1]DIVERSE BEAM SEARCH[1]Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks[]ROUGE- A Package for Automatic Evaluation of Summaries原创 2020-06-13 17:36:26 · 581 阅读 · 0 评论 -
NLP基础(三):Seq2Seq模型Encoder-Decoder和Attention
1.Encoder-Decoder基础的seq2seq = Encoder + Decoder + 语义编码c (连接两者的中间状态向量)。Encoder–Decoder 结构,输入是一个序列,输出也是一个序列。Encoder 中将可变长度的信号序列变为固定长度的向量表达,Decoder 将这个固定长度的向量变成可变长度的目标信号序列Encoder,Decoder可以是CNN,RNN,Transformer三种结构,Encoder和Decoder可以是相同的结构,也可以是不同的结构。2.Attenti原创 2020-06-07 01:20:24 · 1829 阅读 · 0 评论 -
NLP基础(二):递归神经网络
1.RNNRNN神经网络每一个状态的输出与上一个状态的输出有关,xtx_txt和ht−1h_{t-1}ht−1进行拼接作为神经网络的输入计算得到ttt时刻的输出hth_tht,h1=f(h0,x0)h_1=f(h_0, x_0)h1=f(h0,x0)。因此RNN模型无法进行GPU并行加速。1.1 parameter sharing神经网络的参数为whw_hwh,通过不断循环递归训练得到该参数。1.2Exploding and Vanishing根据链式法则,在导数值很小的情况原创 2020-05-31 19:57:20 · 488 阅读 · 0 评论 -
NLP基础(一):初识自然语言处理和词向量
参考资料[1]GitHub README模板[2]GitHub Python gitignore文件[3]原创 2020-05-31 15:21:08 · 618 阅读 · 0 评论