RoBERTa 和 BERT 是什么
一、BERT(Bidirectional Encoder Representations from Transformers)
提出背景:由谷歌于2019年提出,是自然语言处理领域的里程碑模型,基于Transformer编码器架构,通过预训练生成双向语言表示。
核心特点:
- 双向预训练:通过掩码语言模型(MLM)和下一句预测(NSP)任务,学习上下文相关的词向量。
- 多层Transformer编码器:基础版(BERT-Base)包含12层编码器,大型版(BERT-Large)包含24层编码器。
- 输入表示:融合词嵌入(Token Embedding)、段嵌入(Segment Embedding)和位置嵌入(Posit