摘要
Winograd Schema Challenge(WSC)数据集WSC273及其推理对手WNLI是自然语言理解和常识推理的流行基准。 在本文中,我们表明,当在相似的代词消除歧义问题数据集(表示为WSCR)上进行微调时,WSC273上三种语言模型的性能将持续稳定地提高。 我们还生成了一个大型的无监督WSClike数据集。 通过在引入的WSCR数据集和WSCR数据集上微调BERT语言模型,我们在WSC273和WNLI上实现了72.5%和74.7%的总体准确度,从而将先前的最新解决方案提高了8.8%和9.6%.此外,我们的微调模型在Trichelair等人介绍的WSC273的“复杂”子集上也始终更加准确。
论文方法
WSC方法
我们通过预训练BERT LM(Devlin等人,2018)以及引入的非常大的类似于Winograd的数据集进行微调来实现WSC。 下面介绍微调目标函数和引入的数据集。 给定一个训练句子s,从句子中掩盖要解析的代词,并使用LM来代替掩盖代词来预测正确的候选词。 令c1和c2为两个候选者。 用于Masked Token Prediction的BERT用于查找P(c1 | s)和P(c2 | s)。 如果一个候选者由几个标记组成,则在掩码句子中使用相应数量的[MASK]标记。 然后,将log P(c | s)计算为每个组成标记的对数概率的平均值。 如果c1是正确的,而c2是不正确的,则损失为:
L
=
l
o
g
P
(
c
1
∣
s
)
+
α
⋅
m
a
x
(
0
,
l
o
g
P
(
c
2
∣
s
)
−
l
o
g
P
(
c
1
∣
s
)
+
β
)
L = log P(c1|s) + \alpha · max(0, log P(c2|s) - log P(c1|s) + \beta)
L=logP(c1∣s)+α⋅max(0,logP(c2∣s)−logP(c1∣s)+β)
MaskedWiki数据集。
为了获得更多数据进行微调,我们会自动生成类似于WSC的大规模句子集合。更具体地说,在大型文本语料库中搜索包含(至少)两次出现相同名词的句子。我们用[MASK]标记掩盖该名词的第二次出现。对于与替换后的名词不同的句子中的每个名词,给出了几种可能的掩蔽标记的替换。因此,尽管不能确保它们满足所有要求,但我们获得的示例在结构上与WSC中的示例相似(请参见第2节)。为了生成这样的句子,我们选择英语维基百科作为源文本语料库,因为它是具有各种信息的大规模且语法正确的文本集合。我们使用Stanford POS标记器(Manning等人,2014)来查找名词。我们获得了包含大约1.3亿个示例的数据集。我们随机地对数据集进行统一下采样以获得大小可控的数据集。下采样后,数据集包含240万个示例。所有实验仅使用此降采样数据集进行。为了确定数据集的质量,将200个随机示例手动分为4类:
-
无法解决:不能在给定的上下文中明确选择被屏蔽的单词。范例:Palmer和Crenshaw都使用了Wilson 8802推杆,由于[MASK]熟练使用了它,因此获得了绰号“ Little Ben”。 [Palmer / Crenshaw]
-
困难:答案并非易事。范例:普拉斯(Plath)自杀时,亚西亚怀着休斯(Hughes)的孩子怀孕,但在[MASK]死后不久就堕胎了。 [Plath / Assia]
-
容易:替代句子在语法上是不正确的,或者显然是次等选择。范例:The syllables are pronounced strongly by Gaga in syncopation while her vibrato complemented Bennett’s characteristic jazz vocals and swing . Olivier added , “ [MASK] ’s voice , when stripped of its bells and whistles, showcases a timelessness that lends itself well to the genre . ” [Gaga/syncopation]
-
噪声:该示例是解析错误的结果。
在分析的子集中,有8.5%的示例无法解决,有45%的示例很难,有45.5%的示例很容易,有1%的示例属于噪声类别。
WNLI方法
在WNLI数据集的测试集上额外测试了模型。要使用与WSC273数据集相同的评估方法,我们将WNLI中的示例从前提假设格式转换为masked words格式。由于每个假设只是前提的一个子串,代词被替换为候选词,因此找到替换的代词和一个候选词可以通过找到假设作为前提的子串来完成。句子中的所有其他名词均被视为替代候选词。 Stanford POS-tagger(Manning等人,2014)用于查找句子中的名词。计算每个候选者的概率,以确定假设中的候选者是否为最佳匹配。只使用WNLI数据集的测试集.