使用掩码语言建模 (MLM) 目标的英语语言预训练模型。它在 本文中进行了介绍,并在此存储库中首次发布 。这个模型是不加壳的:它在英语和英语之间没有区别。
型号说明
BERT 是一种以自我监督的方式在大量英语数据语料库上进行预训练的变形金刚模型。这意味着它仅在原始文本上进行了预训练,没有人以任何方式标记它们(这就是它可以使用大量公开可用数据的原因),并通过自动过程从这些文本生成输入和标签。更准确地说,它经过预训练有两个目标:
- 掩蔽语言建模(MLM):取一个句子,模型随机掩蔽输入中 15% 的单词,然后通过模型运行整个被掩蔽的句子,并且必须预测被掩蔽的单词。这不同于通常一个接一个地看到单词的传统循环神经网络 (RNN),也不同于像 GPT 这样在内部掩盖未来标记的自回归模型。它允许模型学习句子的双向表示。
- 下一句预测 (NSP):模型在预训练期间将两个蒙面句子作为输入连接起来。有时它们对应于原文中相邻的句子,有时则不是。然后,该模型必须预测这两个句子是否相互跟随。
通过这种方式,模型学习了英语语言的内部表示,然后可用于提取对下游任务有用的特征:例如,如果您有一个标记句子的数据集,您可以使用 BERT 生成的特征训练标准分类器模型作为输入。
预期用途和限制
您可以将原始模型用于掩码语言建模或下一句预测,但它主要用于在下游任务上进行微调。查看模型中心以查找您感兴趣的任务的微调版本。
请注意,此模型主要针对使用整个句子(可能被屏蔽)做出决策的任务进行微调,例如序列分类、标记分类或问答。对于诸如文本生成之类的任务,您应该查看 GPT2 之类的模型。
如何使用
您