Introduction
预训练的语言模型,在改进自然语言处理任务方面非常有效。包括句子级别的任务(自然语言推理和释义)也包括分词级别的任务(NER和问答)。
将预训练的语言表示应用于下游任务有两种现有策略:基于特征(feature-based)与微调(fine-tuning)。(这两种方法在预训练期间共享相同的目标函数,它们使用单向语言模型来学习通用语言表示。)
基于特征:例如 ELMo使用特定于任务的架构,其中包括预训练的表示作为附加特征。
微调:引入了最少的任务特定参数,并通过简单地微调所有预训练参数来对下游任务进行训练。
但是,当前的技术限制了预训练表示的能力,特别是对于微调方法。主要限制是标准语言模型是单向的,这限制了可在预训练期间使用的架构的选择。这样的限制对于句子级任务来说是次优的,并且在将基于微调的方法应用于令牌级任务(例如问答)时可能非常有害。(提出问题)
BERT
所有总结的bert的知识点都在这: