NLP中数据集的切割方法研究

最新推荐文章于 2024-05-29 21:53:39 发布

miguemath

最新推荐文章于 2024-05-29 21:53:39 发布

阅读量913

点赞数 2

分类专栏：论文文章标签：自然语言处理假设检验数据集切割

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangkaidehao/article/details/100126252

版权

NLP中数据集的切割方法研究ACL 2019杰出论文奖: We need to talk about atandard splits获奖理由本文质疑了评估NLP模型性能时公认且广泛运用的方法。本文使用词性标注任务说明了问题。本文建议模型排名应当基于使用随机切割的重复评估方法。摘要自然语言处理领域的标准做法是对数据集按照训练集，验证集和测试集切割，依据在分离出的测试集上的性能来对系...

摘要由CSDN通过智能技术生成

NLP中数据集的切割方法研究

ACL 2019杰出论文奖: We need to talk about atandard splits

获奖理由

本文质疑了评估NLP模型性能时公认且广泛运用的方法。
本文使用词性标注任务说明了问题。
本文建议模型排名应当基于使用随机切割的重复评估方法。

摘要

自然语言处理领域的标准做法是对数据集按照训练集，验证集和测试集切割，依据在分离出的测试集上的性能来对系统进行排名。然而很少有研究人员用统计的方法来测试性能之间的差异是否是由偶然原因造成的，且很少有人检查同一个数据集中分割出不同的训练-测试集时的系统排名的稳定性。我们使用了2000年至2018年间发布的九个词性标注器进行复现实验，这些标注器每个都声称在广泛使用的标准的分割方式上获得了最佳性能。然而当我们使用随机生成的训练-测试集分割时，根本无法可靠地重现某些排名。我们在此建议使用随机生成的分割来进行系统比较。

问题背景

在进行自然语言处理时，现在的标准做法是在一个留出的测试集上进行评估。
它可能导致对训练集和测试集的过拟合，缺乏一定的普适性。
这样的趋势很有可能是由一种叫做”出版偏见“的现象导致的。

假设G是一个标准集， $G_{train}$ 是训练集， $G_{val}$ 是验证集， $G_{test}$ 是测试集。

最低0.47元/天解锁文章

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NLP中数据集的切割方法研究

NLP中数据集的切割方法研究ACL 2019杰出论文奖: We need to talk about atandard splits获奖理由本文质疑了评估NLP模型性能时公认且广泛运用的方法。本文使用词性标注任务说明了问题。本文建议模型排名应当基于使用随机切割的重复评估方法。摘要自然语言处理领域的标准做法是对数据集按照训练集，验证集和测试集切割，依据在分离出的测试集上的性能来对系...
复制链接

扫一扫

专栏目录

miguemath CSDN认证博客专家 CSDN认证企业博客

码龄13年

39: 原创

5万+: 周排名

135万+: 总排名

27万+: 访问

: 等级

2336: 积分

171: 粉丝

309: 获赞

146: 评论

1204: 收藏

私信

关注

热门文章

分类专栏

自然语言处理 2篇
tensorflow 1篇
论文 11篇
机器学习 5篇
元学习 12篇
Pytorch 11篇
Java 1篇
算法与数据结构 1篇
英文学习 1篇
#Latex 1篇
Python 9篇
图形学 2篇
leetcode 1篇

最新评论

miniImageNet数据集介绍
愛與誠: 没有限制，但是发纯理论的论文，一般是做5 way或者20 way的实验
miniImageNet数据集介绍
加菲猫战神: 所以说小样本和少样本到底是不是一个东西，这一个类别有600个，算少样本，还是说小样本是尺寸小？
miniImageNet数据集介绍
superman_mxx: 请问下小样本分类输入的图像类别没有限制吧？还是说只能输入两类物体呢？我想通过其他数据集训练得到一个权重，然后进行我的数据集检测（我的种类是5类）
MAML复现全部细节和经验教训（Pytorch）
chenchen9422: 同学，你跑了MAML的代码了么，大概需要多久啊？
MAML模型无关的元学习代码完整复现（Pytorch版）
chenchen9422: 同学，你跑了么，我也想问问大概多久？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。