Abstract
BERT: Bidrectional Encoder Representations from Transformers.
BERT与之前的语言表示模型不同,它通过在所有层同时依赖左边和右边的上下文来预训练一个深度双向语言表示。
通过这种方式预训练的表示只需要一个额外的输出层来fine-tune一下就可以在众多任务上实现SOTA。
BERT一共在7个自然语言处理任务上获得SOTA结果,并且将GLUE benchmark提高到80.4(绝对值提高7.6%),MultiNLI accuracy提高到86.7%(绝对值提高5.6%),SQuAD v1.1测试集F1提高到93.2(绝对值提高1.5),比真人得分还高2.0.
Introduction
将预训练语言表示应用到下游任务有两种策略:
- feature based
- fine-tuning
Feature based方法(例如ELMo)使用任务特定的架构,