LongBench: 开创性的长文本理解评估基准
在人工智能和自然语言处理领域,大语言模型(LLMs)的出现无疑是一场革命。这些模型在各种语言任务中展现出惊人的能力,但它们也面临着一个共同的挑战 - 长文本理解。大多数LLMs只能处理几千个token的输入,这严重限制了它们在处理长篇文档、报告或代码库等场景中的应用。为了推动长文本理解技术的发展,清华大学知识工程实验室(THUDM)团队开发了一个创新性的评估基准 - LongBench。
LongBench的独特之处
LongBench是首个专门针对大语言模型长文本理解能力的双语多任务综合评估基准。它具有以下几个显著特点:
-
双语评估: LongBench同时包含中文和英文任务,这使得它能够全面评估模型在不同语言长文本上的表现。
-
多任务覆盖: 该基准包含6大类21个不同任务,涵盖了长文本应用的关键场景,如单文档问答、多文档问答、摘要生成、少样本学习、合成任务和代码补全等。
-
长文本挑战: LongBench中大多数任务的平均长度在5000到15000词之间,充分测试模型处理长文本的能力。
-
自动化评估: 考虑到长文本评估可能涉及高昂的人工标注或API调用成本,LongBench采用了完全自动化的评估方法,以最低成本衡量模型的长文本理解能力。