深度学习在自然语言处理方向的发展

本文详细探讨了深度学习在自然语言处理领域的进展,涵盖了从word2vec到最新的ALBERT模型。讨论了word2vec的CBOW和skip gram训练方式、优化方法,以及Glove和fasttext。接着,深入解析了transformer结构,包括self-attention、multi-head self-attention、positional encoding。还介绍了ELMO、BERT及其应用,如Masked LM和next sentence prediction。此外,讨论了ERNIE、GPT系列、XLNET、RoBERTa、CTRL和ALBERT的创新点,如cross-layer parameter sharing和sentence order prediction。
摘要由CSDN通过智能技术生成

 

 

时间 里程碑技术 主要贡献 encode
2013-1 Word2vec 词向量的分布式表示方法  
2014-1 Glove 同时使用语料库全局统计特征和局部上下文特征  
2016-7 fasttext 轻量快速,subword粒度的向量学习以及文本分类  
2017-6 transformer attention is all your need, 仅用attention + encoder/decoder结构替代RNN transformer
2018-3 ELMO 拼接两个单项的语言模型,上下文相关向量表达 BiLSTM
2018-6 GPT 预训练、单向语言模型,基于transformer提取特征 transformer
2018-10 BERT 预训练、深度、双向语言模型,用Masked LM 和next sentence predication分别捕捉词语和句子粒度的representation

transformer

MLM、NSP

2019-1 transform-XL 解决长序列的特征提取,缓存上个segment信息供当前segment使用,引入相对位置编码(长距离依赖和训练速度提升)

transformer

RPE、segment split

2019-2 GPT-2 在GPT的基础上增加参数到15亿,去掉fine-tune环节、增加数据集,网络调整lay-norm位置  transformer
2019-4 ERNIE 融入词汇、句法和知识图谱   transformer
2019-6 XLNET 通用的自回归的训练方法,预训练框架改进 transformer-xl
2019-7 RoBERTa 预训练方法改进:no NSP,动态masking,更大minibatch,10倍于bert的训练数据  transformer
2019-9 CTRL 强大而且可控的文本生成能力,16亿参数 transformer
2019-9 ALBERT 比bert小16倍,性能更高

transformer

 

1、word2vec

1.1、两种训练方式:CBOW  和 skip gram

1.2、两种优化方法:

a、层次softmax:对原模型的改进主要有一下两点:

第一点是从输入层到隐藏层的映射,没有采用原先的与矩阵W相乘然后相加求平均的方法,而是直接对所有输入的词向量求和。假设输入的词向量为(0,1,0,0)和(0,0,0,1),那么隐藏层的向量为(0,1,0,1)

第二点改进是采用哈夫曼树来替换了原先的从隐藏层到输出层的矩阵W’。哈夫曼树的叶节点个数为词汇表的单词个数V,一个叶节点代表一个单词,而从根节点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值