CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

UnknownBody

已于 2024-05-24 09:39:30 修改

阅读量237

点赞数 4

分类专栏： LLM Daily LLM Evaluation LLM context 文章标签：语言模型人工智能自然语言处理

于 2024-05-24 09:38:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c_cpp_csharp/article/details/139164014

版权

LLM Daily 同时被 3 个专栏收录

1273 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

85 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

31 篇文章

订阅专栏

本文是LLM系列文章，针对《CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models》的翻译。

CLongEval：一个评估长上下文大语言模型的中文基准

摘要
1 引言
2 CLongEval中的评估框架
3 CLongEval基准
4 实验
5 相关工作
6 结论

摘要

开发具有强大长上下文能力的大型语言模型（LLM）是近年来的研究热点，导致了精通汉语的长上下文LLM的出现。然而，由于缺乏基准，对这些模型的评估仍不完善。为了解决这一差距，我们提出了CLongEval，这是一个评估长上下文LLM的综合中文基准。CLongEval的特点有三个：（1）数据量充足，包括7个不同的任务和7267个例子；（2）广泛的适用性，适用于上下文窗口大小从1K到100K的模型；（3）高质量，除了自动构建的标签外，还有2000多个手动注释的问答对。通过CLongEval，我们对6个开源长上下文LLM和2个领先的商业同行进行了全面评估，这些LLM既具有长上下文能力，又精通中文。我们还根据实证结果进行了深入分析，试图阐明在长期环境中提出挑战的关键能力。

1 引言

2 CLongEval中的评估框架

3 CLongEval

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。