分析自然语言理解中的句法探索

                                                                 分析自然语言理解中的句法探索 

                     
   

链接:https://arxiv.org/pdf/1902.01007
代码:https://github.com/tommccoy1/hans
该文基于自然语言推理(NLI)任务研究了机器学习系统在给定测试集案例情况下使用探索法的表现。首先假设基于统计的NLI模型使用3种容易出错的探索方法:词汇重叠探索、后继探索和成分探索。为决定模型是否使用了这些探索方法,该研究推出了受控的评估集,叫做HANS,其中包含许多失败探索的例子。研究结果发现含有BERT的在MNLI上训练的模型在HANS上表现非常差,说明它们确实使用了这些探索方法。
神经网络比较善于在训练集上进行基于统计模式的学习并将它们应用到和训练集样本分布相同的测试集上去。这个优点也会成为缺点:基于标准神经网络结构的学习器倾向于浅层探索。如果这样的探索经常产生正确的输出,则损失函数就不太激励模型更好地泛化到像人类执行的任务那样更具挑战性的案例上去。该研究重点关注的是基于表层句法属性的探索。
                             句法探索
该文关注的探索是词汇重叠探索、后继探索和成分探索,如表1所示。它们有层级关系:成分探索是后继探索的一种特殊案例,后继探索是词汇重叠探索的一种特殊案例。



该文希望用训练在标准NLI训练集(诸如SNLI或者MNLI)上的基于统计的学习器来实现探索有两个原因,一个是MNLI训练集有相对更多的支持探索的样本。在MNLI中有一些否定探索的例子,这些探索无法容易地被其他探索所解释,不过这种案例比较少见,不妨碍模型学习到探索。MNLI包括多种类型的数据,所以假设否定样本的不足并不是在一种类型上,而是在多来源方法下所生成NLI数据的共同特点。因此假设多来源的NLI数据集能使该文的句法探索偏向于不带有强语言学先验的基于统计的学习器。第二个原因是该文希望当前的NLI模型采用这些探索是因为它们的输入表示使它们易受探索的影响。词汇重叠探索忽视句子中单词的顺序,只考虑它们的同一性,所以词汇重叠探索倾向于被词袋NLI模型所使用。后继探索看重的是单词的线性相邻块,所以按线性顺序处理句子的标准RNN使用后继探索可能是比较合适的。成分探索倾向于使用解析树的成分实现,比如基于树的NLI模型。
数据集构建
   每次探索为支持探索和否定探索的样本各生成五个模板。每个模板生成1000个样本,每次探索总计10000个样本。有些探索是其他探索的特殊案例,该研究确保一个探索的样本在更狭义的探索下成立。比如对于词汇重叠探索,推测不会是前提的后继或成分;对于后继探索,推测不会是前提的成分。
从模板生成数据的一个优点是可以确保所有生成数据的可信性。该研究制作了核心词汇表,其中每个名词都是动词或及物动词的可信宾语。一些样本的类型依赖于基于词汇的动词结构,为控制这类问题,在所有相关结构上选择在MNLI中出现至少50次的动词。
                          实验及结果
该研究使用三种较为流行的表示输入句子的策略:词袋模型DA;使用序列结构的ESIM;和使用句法解析树的SPINN。此外包括对于MNLI最先进的模型BERT。所有模型在MNLI上训练,只用继承和非继承两种标签对HANS进行标注,因为否定和中立之间差异在该研究的案例中并不明显。
结果显示(图1a,图1b)所有模型在MNLI数据集上获得高分,在继承标签处赋予了正确的标签,正确答案和假设性探索一致。但所有四个模型只是与HANS上的探索一致,而不是正确的推理规则。



模型比较
DA和ESIM的表现近乎为0。这些模型可能对三种探索没有区分力,DA模型没有关注到单词的顺序信息,ESIM关注到了但没有使用它。SPINN在后继案例中有最佳表现,可能是由于输入有基于树的特点。在后继案例中BERT比SPINN略差,它在词汇重叠案例中表现非常好,可能是它倾向于包含单词的顺序信息。
                                    讨论
   所训练模型的运转特点依赖于训练集和模型的结构,所以模型在HANS上的不佳结果可能是因为模型结构所限制,也可能是由于MNLI训练集中不足的数据信号所致,或两者都是。即使三个模型在相同的数据集上训练,SPINN在成分和后继案例中的表现没有明显好于ESIM和DA,说明MNLI包含有阻碍在HANS上测试的句法探索的信号。
其他证明依据说明模型的失败很大程度是因为训练集中不足的信号所致,而不是模型的表示能力。BERT模型在诸如主语-动词一致性这样的句法任务上有强劲的表现,这样的任务对主语和句子中直接宾语的差异度要求最低。
该研究尝试在MNLI训练集上增扩数据,增扩数据的结构类似于HANS,但不包括HANS中的特殊样本。在增扩数据的MNLI上训练的模型表现非常好。使用HANS的子集进行数据增扩以进行迁移实验,一个使用BERT进行迁移实验的结果如表3所示:


结果显示BERT有能力学习到一些特殊的子案例,所以可以剔除掉更宽泛的探索。
最后该研究在comp_same_short和comp_same_long数据集上进行测试,其中包括了词汇重叠案例,这个数据集不同于HANS:它是基于未在HANS中呈现的现象的,使用的是不同于HANS的词汇,它的许多句子在语义上是不合理的。使用这个数据集在BERT调优的MNLI和BERT调优的类HANS样本增扩的MNLI上进行测试。数据增扩提升了表现,说明类HANS样本对在HANS上进行扩展有利,图3 显示了该实验的结果。



 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值