转载
文章平均质量分 70
Letitia_xx
嗨呀
展开
-
如何评测nlp 评估数据集
我们其实都同意在GLUE,SQuAD等榜单上刷榜甚至超越人类的模型并没有那么强的自然语言理解能力,很重要的一点就在于这些模型的generalization能力不够强。要解决这个问题,显然一个可靠的评测方案是第一步,但是一味地寻找能让模型掉点的样本就是合理的评测了吗?我们推测,注释任务的框架对群体工作人员在创作假设时所做的语言生成选择有重大影响,从而在数据中产生某些模式。评估数据集应该有一个合理的方法,通过它可以测试我们期望模型在任务上下文中显示的所有语言相关行为。作者:NoviScl。转载 2022-11-18 15:56:57 · 618 阅读 · 1 评论 -
How to Read a Paper
“How to Read a Paper” by S. Keshav作者主页 http://blizzard.cs.uwaterloo.ca/keshav/wiki/index.php/HTRAP中文译版:如何阅读一篇论文 - 杜润之的文章 - 知乎 https://zhuanlan.zhihu.com/p/26809975...转载 2019-01-04 21:26:42 · 175 阅读 · 0 评论