时间 | 里程碑技术 | 主要贡献 | encode |
2013-1 | Word2vec | 词向量的分布式表示方法 | |
2014-1 | Glove | 同时使用语料库全局统计特征和局部上下文特征 | |
2016-7 | fasttext | 轻量快速,subword粒度的向量学习以及文本分类 | |
2017-6 | transformer | attention is all your need, 仅用attention + encoder/decoder结构替代RNN | transformer |
2018-3 | ELMO | 拼接两个单项的语言模型,上下文相关向量表达 | BiLSTM |
2018-6 | GPT | 预训练、单向语言模型,基于transformer提取特征 | transformer |
2018-10 | BERT | 预训练、深度、双向语言模型,用Masked LM 和next sentence predication分别捕捉词语和句子粒度的representation | transformer MLM、NSP |
2019-1 | transform-XL | 解决长序列的特征提取,缓存上个segment信息供当前segment使用,引入相对位置编码(长距离依赖和训练速度提升) | transformer RPE、segment split |
2019-2 | GPT-2 | 在GPT的基础上增加参数到15亿,去掉fine-tune环节、增加数据集,网络调整lay-norm位置 | transformer |
2019-4 | ERNIE | 融入词汇、句法和知识图谱 | transformer |
2019-6 | XLNET | 通用的自回归的训练方法,预训练框架改进 | transformer-xl |
2019-7 | RoBERTa | 预训练方法改进:no NSP,动态masking,更大minibatch,10倍于bert的训练数据 | transformer |
2019-9 | CTRL | 强大而且可控的文本生成能力,16亿参数 | transformer |
2019-9 | ALBERT | 比bert小16倍,性能更高 | transformer
|
1、word2vec
1.1、两种训练方式:CBOW 和 skip gram
1.2、两种优化方法:
a、层次softmax:对原模型的改进主要有一下两点:
第一点是从输入层到隐藏层的映射,没有采用原先的与矩阵W相乘然后相加求平均的方法,而是直接对所有输入的词向量求和。假设输入的词向量为(0,1,0,0)和(0,0,0,1),那么隐藏层的向量为(0,1,0,1)
第二点改进是采用哈夫曼树来替换了原先的从隐藏层到输出层的矩阵W’。哈夫曼树的叶节点个数为词汇表的单词个数V,一个叶节点代表一个单词,而从根节点