前言
L-Eval是复旦大学邱锡鹏老师团队在 2023 年 7 月左右发布的一个标准化的长文本语言模型(LCLMs)评估数据集,包含20个子任务、411篇长文档、平均长度为7217个单词,超过2000个人工标记的QA对。它分为封闭型任务和开放型任务,涵盖了法律、金融、学校讲座、长对话、新闻、长篇小说和会议等多个领域,旨在通过不同的评价方法,如长度指令增强(LIE)评价和LLM裁判,来准确反映LCLMs的能力。结果表明,在大多数任务中,使用16k上下文通常能够实现比使用检索到的4k上下文作为输入更好的或相当的性能。在L-Eval上测试了6个长上下文开源模型:LLaMa、LLaMa2、LongChat-16k、ChatGLM2-8k、XGen-8和MPT-65k。
L-Eval: Instituting Standardized Evaluation for Long Context Language Models
- Github:https://github.com/OpenLMLab/LEval
- Paper:https://arxiv.org/pdf/2307.11088v1
- Dataset:https://huggingface.co/datasets/L4NLP/LEval
数据收集与标注
为了追求多样化、全面且相关的数据,我们从广泛的平台和来源获取数据集。这些数据集代表了日常生活和专业领域的各个方面,为长上下文语言模型(LCLMs)带来了不同的挑战。我们利用了以前开源数据集的资源、Coursera字幕、公司网站的收入电话记录、GitHub等。L-Eval中的指令风格包括多项选择题、学校数学问题、从长篇对话中检索关键话题、文本摘要和抽象问题回答,涵盖了广泛的任务。每个数据集的构建如下。
Lectures from Coursera
Coursera讲座数据集来源于Coursera网站。我们选择了4门课程:
- 向数据驱动决策提问
- 数据科学家的工具箱
- 从脏数据到清洁数据的处理
- 改进深度神经网络:超参数调整、正则化和优化
输入的长文档是视频的字幕。问题和正确答案由作者标注。Coursera的指令风格采用多项选择格式。为了增加任务的难度,我们设置了多个正确选项。如果没有选择所有正确选项,则只能获得该问题总分的四分之一。
Grade School Math
小学数学数据集来源于GSM8k数据集中的100个小学数学问题。增加高质量和复杂的例子通常对解决数学问题有积极影响。我们为这项任务构建了16个上下文示例,其中包括8个来自chain-of-thought-hub的最难提示,其余8个由我们构建。2k或4k上下文长度的模型在