BERT介绍

本文深入探讨BERT,一种基于Transformer的双向语言模型,通过Masked Language Model和Next Sentence Prediction任务进行预训练。BERT在多个NLP任务中表现出色,尤其是在句子级别的理解上,其创新之处在于融合了上下文信息。预训练阶段,15%的WordPiece tokens被随机处理,80%替换为[MASK],10%为随机词,10%保持不变,以平衡预训练与微调的效果。实验结果显示,BERT在GLUE任务集上全面超越其他模型,大模型在小任务上也能取得显著提升。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

这篇介绍以下最近大热的BERT,它在11个NLP任务中刷新了成绩,效果确实惊人。不过在介绍论文之前我还是想说这项工作不是很好复现,如果没有足够的资源就不要想了 。我觉得很可能未来的利用价值在于直接使用作者公布的预训练好的模型。

回顾

现在有很多利用预训练的语言表征来完成下游NLP任务的研究,作者把它们概括为两类feature-based和fine-tuning:

分类 代表 task-specific模型 使用方案
feature-based ELMo 需要 把表征作为feature提供给下游任务
fine-tuning OpenAI GPT,(前文介绍过的) ULMFiT 不需要 fine tune预训练的参数

这两类方法的共性在于它们在预训练中都使用了一样的目标函数,也都使用了单向的语言模型。
作者对这些方法的批评在于它们没有很好的利用上下文的信息。尽管如ELMo这样的算法利用了正向和反向的语言模型,可本质上仍然是两个unidirectional模型的叠加。对于SQuAD这种阅读理解式的任务,能够同时从两个方向提取context信息至关重要,然而现存的方法有巨大的局限性。

BERT, OpenAI GPT, 和ELMo之间的区别如图示:
在这里插入图片描述

创新

作为fine-tuning这一类的方法,作者提出了改进的方案:BERT(Bidirectional Encoder Representations from Transformers)
具体做法是,

  1. 采取新的预训练的目标函数:the “masked language model” (MLM) 随机mask输入中的一些tokens,然后在预训练中对它们进行预测。这样做的好处是学习到的表征能够融合两个方向上的context。这个做法我觉得非常像skip-gram。过去的同类算法在这里有所欠缺,比如上文提到的ELMo,它用的是两个单向的LSTM然后把结果拼接起来;还有OpenAI GPT,虽然它一样使用了transformer,但是只利用了一个方向的注意力机制,本质上也一样是单项的语言模型。
  2. 增加句子级别的任务:“next sentence prediction”
    作者认为很多NLP任务比如QA和NLI都需要对两个句子之间关系的理解,而语言模型不能很好的直接产生这种理解。为了理解句子关系,作者同时pre-train了一个“next sentence prediction”任务。具体做法是随机替换一些句子,然后利用上一句进行IsNext/NotNext的预测。

在实际的预训练中,这两个任务是jointly training

BERT模型
模型架构

论文使用了两种模型:
B E R T B A S E BERT_{BASE} BERT

MG-BERT是一种基于BERT模型的新型预训练语言模型。它结合了多粒度信息和多任务学习,能够更好地处理中文语言的复杂性和多义性。下面就对MG-BERT进行详细的介绍。 一、MG-BERT的背景及意义 自从BERT模型问世以来,预训练模型在自然语言处理领域中得到了广泛应用。然而,BERT模型只能处理单一粒度的信息,而中文语言的复杂性和多义性使得单一粒度的信息处理难以满足需求。因此,研究者们提出了MG-BERT,通过结合多粒度信息和多任务学习,可以更好地处理中文语言的复杂性和多义性。 二、MG-BERT的设计 MG-BERT是基于BERT模型的改进版本,它主要包含以下三个方面的改进。 1.多粒度信息的处理 MG-BERT通过多粒度信息的处理,能够更好地抓住中文语言的复杂性和多义性。具体来讲,MG-BERT通过引入汉字级别的信息,可以更准确地处理中文语言的复杂性。同时,MG-BERT还引入了词级别和句子级别的信息,可以更好地处理中文语言的多义性。 2.多任务学习的应用 MG-BERT通过多任务学习的应用,可以更好地处理不同的自然语言处理任务。具体来讲,MG-BERT结合了语言模型任务、分类任务和序列标注任务,可以更好地处理自然语言处理任务。 3.微调方法的改进 MG-BERT通过改进微调方法,可以更好地适应各种自然语言处理任务。具体来讲,MG-BERT通过引入动态学习率调整和多层全连接网络来微调模型,可以更好地适应各种自然语言处理任务。 三、MG-BERT的实验结果 为了验证MG-BERT的有效性,研究者们在多个自然语言处理任务上进行了实验。实验结果表明,MG-BERT在多个任务上的表现都比BERT模型要好。具体来讲,MG-BERT在语言模型任务、分类任务和序列标注任务上的表现都比BERT模型要好。 四、结论 MG-BERT是一种基于BERT模型的新型预训练语言模型。它结合了多粒度信息和多任务学习,能够更好地处理中文语言的复杂性和多义性。实验结果表明,MG-BERT在多个自然语言处理任务上表现出了优异的性能,具有很大的应用潜力。
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值