深度学习在自然语言处理方向的发展

最新推荐文章于 2024-09-05 06:45:00 发布

jeffchencsj

最新推荐文章于 2024-09-05 06:45:00 发布

阅读量309

点赞数

分类专栏：自然语言处理

本文链接：https://blog.csdn.net/jeffchencsj/article/details/107858274

版权

本文详细探讨了深度学习在自然语言处理领域的进展，涵盖了从word2vec到最新的ALBERT模型。讨论了word2vec的CBOW和skip gram训练方式、优化方法，以及Glove和fasttext。接着，深入解析了transformer结构，包括self-attention、multi-head self-attention、positional encoding。还介绍了ELMO、BERT及其应用，如Masked LM和next sentence prediction。此外，讨论了ERNIE、GPT系列、XLNET、RoBERTa、CTRL和ALBERT的创新点，如cross-layer parameter sharing和sentence order prediction。

摘要由CSDN通过智能技术生成

时间	里程碑技术	主要贡献	encode
2013-1	Word2vec	词向量的分布式表示方法
2014-1	Glove	同时使用语料库全局统计特征和局部上下文特征
2016-7	fasttext	轻量快速，subword粒度的向量学习以及文本分类
2017-6	transformer	attention is all your need, 仅用attention + encoder/decoder结构替代RNN	transformer
2018-3	ELMO	拼接两个单项的语言模型，上下文相关向量表达	BiLSTM
2018-6	GPT	预训练、单向语言模型，基于transformer提取特征	transformer
2018-10	BERT	预训练、深度、双向语言模型，用Masked LM 和next sentence predication分别捕捉词语和句子粒度的representation	transformer MLM、NSP
2019-1	transform-XL	解决长序列的特征提取，缓存上个segment信息供当前segment使用，引入相对位置编码(长距离依赖和训练速度提升)	transformer RPE、segment split
2019-2	GPT-2	在GPT的基础上增加参数到15亿，去掉fine-tune环节、增加数据集，网络调整lay-norm位置	transformer
2019-4	ERNIE	融入词汇、句法和知识图谱	transformer
2019-6	XLNET	通用的自回归的训练方法，预训练框架改进	transformer-xl
2019-7	RoBERTa	预训练方法改进：no NSP，动态masking，更大minibatch,10倍于bert的训练数据	transformer
2019-9	CTRL	强大而且可控的文本生成能力，16亿参数	transformer
2019-9	ALBERT	比bert小16倍，性能更高	transformer