如何评测nlp 评估数据集

作者:NoviScl
链接:https://www.zhihu.com/question/453187375/answer/1826719946
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
 

我们其实都同意在GLUE,SQuAD等榜单上刷榜甚至超越人类的模型并没有那么强的自然语言理解能力,很重要的一点就在于这些模型的generalization能力不够强。要解决这个问题,显然一个可靠的评测方案是第一步,但是一味地寻找能让模型掉点的样本就是合理的评测了吗?

对此,Sam Bowman提出了自己的观点。在他新鲜出炉的这篇position paper(NAACL'21)中,他提出了benchmark应当满足的几个条件 (Sam作为各大主流benchmark的幕后推手,对于crowd-sourced benchmark construction尤其有心得),比如:

An evaluation dataset should reflect the full range of linguistic variation—including words and higher-level constructions—that is used in the relevant domain, context, and language variety.

An evaluation dataset should have a plausible means by which it tests all of the language-related behaviors that we expect the model to show in the context of the task.

评估数据集应反映所有语言变化,包括相关领域、上下文和语言种类中使用的单词和更高级的结构。

评估数据集应该有一个合理的方法,通过它可以测试我们期望模型在任务上下文中显示的所有语言相关行为。

An evaluation dataset should be sufficiently free of annotation artifacts that a system cannot reach near-human levels of performance by any means other than demonstrating the required language-related behaviors.

《Annotation Artifacts in Natural Language Inference Data》

我们推测,注释任务的框架对群体工作人员在创作假设时所做的语言生成选择有重大影响,从而在数据中产生某些模式。我们称这些模式为annotation artifacts标注的人工痕迹

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值