CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models

60 篇文章 2 订阅 ¥99.90 ¥299.90
27 篇文章 1 订阅

本文是LLM系列文章,针对《CLongEval: A Chinese Benchmark for Evaluating Long-Context Large Language Models》的翻译。

CLongEval:一个评估长上下文大语言模型的中文基准

摘要

开发具有强大长上下文能力的大型语言模型(LLM)是近年来的研究热点,导致了精通汉语的长上下文LLM的出现。然而,由于缺乏基准,对这些模型的评估仍不完善。为了解决这一差距,我们提出了CLongEval,这是一个评估长上下文LLM的综合中文基准。CLongEval的特点有三个:(1)数据量充足,包括7个不同的任务和7267个例子;(2) 广泛的适用性,适用于上下文窗口大小从1K到100K的模型;(3) 高质量,除了自动构建的标签外,还有2000多个手动注释的问答对。通过CLongEval,我们对6个开源长上下文LLM和2个领先的商业同行进行了全面评估,这些LLM既具有长上下文能力,又精通中文。我们还根据实证结果进行了深入分析,试图阐明在长期环境中提出挑战的关键能力。

1 引言

2 CLongEval中的评估框架

3 CLongEval

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值