作者:NoviScl
链接:https://www.zhihu.com/question/453187375/answer/1826719946
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
我们其实都同意在GLUE,SQuAD等榜单上刷榜甚至超越人类的模型并没有那么强的自然语言理解能力,很重要的一点就在于这些模型的generalization能力不够强。要解决这个问题,显然一个可靠的评测方案是第一步,但是一味地寻找能让模型掉点的样本就是合理的评测了吗?
对此,Sam Bowman提出了自己的观点。在他新鲜出炉的这篇position paper(NAACL'21)中,他提出了benchmark应当满足的几个条件 (Sam作为各大主流benchmark的幕后推手,对于crowd-sourced benchmark construction尤其有心得),比如:
An evaluation dataset should reflect the full range of linguistic variation—including words and higher-level constructions—that is used in the relevant domain, context, and language variety.
An evaluation dataset should have a plausible means by which it tests all of the language-related behaviors that we expect the model to show in the context of the task.
评估数据集应反映所有语言变化,包括相关领域、上下文和语言种类中使用的单词和更高级的结构。
评估数据集应该有一个合理的方法,通过它可以测试我们期望模型在任务上下文中显示的所有语言相关行为。
An evaluation dataset should be sufficiently free of annotation artifacts that a system cannot reach near-human levels of performance by any means other than demonstrating the required language-related behaviors.
《Annotation Artifacts in Natural Language Inference Data》
我们推测,注释任务的框架对群体工作人员在创作假设时所做的语言生成选择有重大影响,从而在数据中产生某些模式。我们称这些模式为annotation artifacts标注的人工痕迹