文献记录-BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

文献地址:

https://arxiv.org/pdf/1810.04805.pdf

摘要:

bert 是用transformer的encoder 来构建的双向预训练模型,训练过程是无监督的,并且可以通过fine-tune的方式去获得较好的多个下游任务的效果.


简介:

预训练模型对于NLP的数据特征的提取有着很大作用,为了找到,句子和句子,词语和词语之间的联系.

现有的预训练模型有两种:基于特征的(elmo);微调(GPT)
特点:
1:Bert使用了掩语预测的模型.
2:双向
3:预训练

模型:

bert 包括两个步骤,预训练和微调

在预训练阶段,通过不同的任务对未标记的模型进行训练
微调时,用预训练得到参数初始化模型的参数,然后再根据下游任务对参数进行微调

在这里插入图片描述[CLS]是开始标记,[SEP]是分割标记

在这里插入图片描述
bert 模型的输入格式如上,Token 表示词语的标记符号 ,Segment 是句子的编号(一句话就全是0,两句话就0...01...1),position一般不需要给会有默认值.


预训练过程

预训练过程包括: Masked Language Model (MLM) 和 Next Setence Prediction (NSP)

MLM:
为了训练深度双向表示,文章中按照一定的百分比(15%)随机的mask一些token(把原始的token改成 [MASK] ),这些masked的特征最后会计算是每个词语的概率.但是由于mask这个操作只有在预训练过程中使用到,而微调过程不会用到.这可难会造成一些信息表达的误差.为了解决这样的问题,模型也不会总是去mask 15%的token,而是在这15%中,有80%的token会用[MASK]替代,10%的token会用一个随机token替代,10%的token会不变.(这个措施有实验结果证明对后续的微调是有效果提升的)

NSP:
目标一般是QA会在其他句子对的问题:
其中会有50%的句子是真实的下一句化,50%的句子是语料库中的随机句子.分别被标记为"IsNext" 和 “NotNext”

微调

按照输入要求输入数据即可.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值