CLongEval：一个中文长文能力评测 benchmark

木尧大兄弟

于 2024-08-23 15:07:05 发布

阅读量1.3k

点赞数 26

分类专栏： ML&DL&NLP 文章标签：人工智能 LLM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/muyao987/article/details/141464886

版权

前言

论文：CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models
链接：https://arxiv.org/pdf/2403.03514
Github：https://github.com/zexuanqiu/CLongEval
数据：https://huggingface.co/datasets/zexuanqiu22/CLongEval

总体介绍

CLongEval是港中文提出的一个用于评估长文本上下文大型语言模型（LLMs）的中文基准测试：

包含7个不同任务和7267个示例；
数据长度在1K至100K的上下文窗口大小
除了自动构建的标签外，还有2,000多对人工标注的问题-答案对。

CLongEval 的7个任务每个任务的测试数据都分成了三个不同的子集：小、中、大。

小数据集：主要包含长度在1K到16K tokens 之间的测试数据。
中数据集：主要包含长度在16K到50K tokens 之间的数据。
大数据集：主要包含长度从50K到100K tokens 的数据。

数据情况：
在这里插入图片描述

评测结果：
在这里插入图片描述

数据详情

任务一：Long Story QA (LStQA) - 长篇故事问答任务

长篇故事问答（LStQA）任务要求大型语言模型（LLMs）基于长篇故事的上下文片段回答相关问题。

模型应该能够识别出相关的片段，并推理出答案。与MultiFieldQA的规范性和客观性不同，我们选择的故事具有叙述性、创造性，并且本质上更长&

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。