论文翻译：arxiv-2024.Jiahao Ying.Automating Dataset Updates Towards Reliable and Timely Evaluation of

最新推荐文章于 2024-10-10 11:54:20 发布

CSPhD-winston-杨帆

最新推荐文章于 2024-10-10 11:54:20 发布

阅读量46

点赞数

分类专栏：论文翻译 LLMs-数据污染文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/WhiffeYF/article/details/142497007

版权

论文翻译同时被 2 个专栏收录

92 篇文章 3 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

LLMs-数据污染

48 篇文章 0 订阅

订阅专栏

Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models

https://arxiv.org/pdf/2402.11894

自动化数据集更新以实现大型语言模型的可靠和及时评估

文章目录

自动化数据集更新以实现大型语言模型的可靠和及时评估
摘要
1 引言

摘要

大型语言模型（LLMs）在各种自然语言基准测试中取得了令人印象深刻的性能，这促使我们不断为更大的LLMs策划更具挑战性的数据集，这是一个成本高昂且耗时的过程。在本文中，我们提出自动化数据集更新，并提供系统性分析，以评估其在处理基准泄露问题、难度控制和稳定性方面的有效性。因此，一旦当前基准被掌握或泄露，我们可以及时更新它，以进行可靠和及时的评估。有两种更新策略：1）模仿策略，基于原始数据生成类似的样本，保留风格和上下文的本质；2）扩展策略，通过适应布鲁姆教育目标分类法，在不同的认知水平上进一步扩展现有样本。在更新后的MMLU和BIG-Bench上的广泛实验表明了所提出策略的稳定性，并发现模仿策略可以有效缓解基准泄露导致的高估问题。在高效的模仿策略失败的情况下，我们的扩展策略仍然显

了解本专栏

超级会员免费看

CSPhD-winston-杨帆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。