BERT: Pre-training of deep bidirectional transformers for language understanding
1.emb
bert emb的输入时三个emb的和,首先是token自己的emb,其次是segment emb(区分属于第几个句子), 第三个是position emb
2.预训练任务
替换策略:
-
MLM(普遍使用)
替换策略:
15%做处理,在其中:
80%做[MASK]
-
10%随机token替换
-
10%不替换
-
-
NSP(句子级别粒度的)
预测下一个句子是否是真实的下一个句子。
替换策略:- 50%随机从语料库选取一个句子
- 50%是正确的
3. 对比试验
3.1. 预训练
- NSP对于句子粒度的数据集训练很有用
- MLM比单向的LTR(left to right)要好很多
3.2. 模型大小
- 模型越大,无论在大数据集还是小数据上fine-tune都表现得越好
3.3. feature-based method
- bert也比以往的方法好