预训练语言模型
1. 语言模型
- 主要任务:给定一句话,预测接下来出现的词。
- 代表性语言模型
- Word2Vec:基于词向量
- Pre-trained RNN:基于RNN
- GPT & BERT:基于Transformer
2. 预训练语言模型(PLM)
-
两种范式
-
Feature-based approches
Word2Vec
-
Fine-tuning approaches
BERT
-
-
GPT
- 一种强大的生成式语言模型
- 优点:
- 数据量大
- 使用Transfomer的decoder构建了一种强大的深度神经网络
-
BERT
- 作用:解决语言模型的双向理解问题。
- 核心思想:mask一些词,再预测出这些被mask的词。
- BERT会mask15%的词,mask过多则得不到足够的文本信息,mask过少则会缺少监督信息。
- 改进:
- RoBERTa
- ELECTRA
-
预训练语言模型论文列表
http://github.com/thunlp/PLMpapers