Appendix for "BERT"(B&C)

B Detailed Experimental Setup
B.1 Detailed Descriptions for the GLUE Benchmark Experiments.

GLUE基准测试包括以下数据集,其具体描述可参考Wang等(2018a)的最初概述。

MNLI Multi-Genre Natural Language Inference多体裁自然语言推理是一项大规模的,众包的蕴涵性分类任务(Williams等,2018)。 给定一对句子,目标是预测第二个句子相对于第一个句子是包含,矛盾还是中立的。

QQP Quora Question Pairs是一个二元分类任务,目标是确定在Quora上提出的两个问题在语义上是否相同(Chen等,2018)。

QNLI Question Natural Language Inference是Stanford Question Answering数据集(Rajpurkar等,2016)的一个版本,该数据集已转换为二进制分类任务(Wang等,2018a)。 肯定的例子是确实包含正确答案的(问题,句子)对,否定的例子是同一段落中不包含答案的(问题,句子)对。

SST-2 The Stanford Sentiment Treebank是一种二进制的单句分类任务,由从带人工情感分析注释的(Socher等人,2013)电影评论中提取的句子组成。

CoLA The Corpus of Linguistic Acceptability 是一个二进制的单句分类任务,目标是预测英语句子在语言上是否“可以接受”(Warstadt等人,2018)。

STS-B The Semantic Textual Similarity Benchmark是从新闻标题和其他来源提取的句子对的集合(Cer等人,2017)。 他们用1到5分打分,表示这两个句子在语义上有多相似。

MRPC Microsoft Research Paraphrase语料库由自动从在线新闻源中提取的句子对组成,并带有人工注释,以说明该对句子中的句子是否等效(Dolan和Brockett,2005年)。

RTE Recognizing Textual Entailment是一项类似于MNLI的二进制蕴含任务,但是训练数据少得多(Bentivogli等,2009)。

WNLI Winograd NLI是一个小的自然语言推理数据集(Levesque等,2011)。 GLUE网页指出,该数据集的构建存在问题,并且提交给GLUE的每个受过训练的系统的表现都比预测多数阶段的65.1基线准确性差。 因此,我们排除此设置对OpenAI GPT公平。 对于我们的GLUE提交,我们总是预测多数的阶段。

C Additional Ablation Studies
C.1 Effect of Number of Training Steps

图5给出了从经过k步预训练的检查点进行微调后的MNLI 开发集精度。 这使我们能够回答以下问题:
1.问题:BERT是否真的需要大量的预训练(128,000个单词/批* 1,000,000步)来实现很高的微调精度?
答:是的,相比50万步,以1M步进行训练时,BERT-BASE可以使MNLI的精度提高近1.0%。

2.问题:由于在每批只预测了15%的单词而不是每个单词,因此MLM预训练的收敛速度比LTR预训练慢?
答:MLM模型的收敛速度确实比LTR模型慢。 但是,就绝对精度而言,MLM模型几乎立即开始胜过LTR模型。

在这里插入图片描述
图5:训练步骤数量减少。 这显示了微调后的MNLI精度,从已进行k个步骤预训练的模型参数开始。 x轴是k的值。

C.2 Ablation for Different Masking Procedures
在第3.1节中,我们提到BERT在使用带掩码语言模型(MLM)目标进行预训练时使用混合策略来屏蔽目标令牌。 以下是消融研究,以评估不同掩码策略的效果。
注意,掩码策略的目的是减少预训练和微调之间的不匹配,因为[MASK]符号在微调阶段从不出现。 我们报告了MNLI和NER的开发集结果。 对于NER,我们同时报告了微调和基于特征的方法,因为我们期望基于特征的方法将消除不匹配,因为模型将没有机会调整表征。
在这里插入图片描述
表8:针对不同掩码策略的消融

结果显示在表8中。在表中,MASK表示我们用MLM的[MASK]符号替换了目标令牌; SAME表示我们按原样保留目标令牌; RND表示我们将目标令牌替换为另一个随机令牌。
表格左侧的数字代表了MLM训练期间使用的特定策略的概率(BERT使用80%,10%,10%)。 本文的右侧部分代表开发集的结果。 对于基于特征的方法,我们将BERT的最后4层连接为特征,这在5.3节中被证明是最好的方法。
从表中可以看出,微调对于不同的掩码策略具有惊人的鲁棒性。 但是,正如预期的那样,将基于特征的方法应用于NER时仅使用MASK策略是有问题的。 有趣的是,仅使用RND策略的效果也比我们的策略差很多。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值