L-Eval:一个60k左右长文评测数据集

在这里插入图片描述

前言

L-Eval是复旦大学邱锡鹏老师团队在 2023 年 7 月左右发布的一个标准化的长文本语言模型(LCLMs)评估数据集,包含20个子任务411篇长文档平均长度为7217个单词,超过2000个人工标记的QA对。它分为封闭型任务开放型任务,涵盖了法律、金融、学校讲座、长对话、新闻、长篇小说和会议等多个领域,旨在通过不同的评价方法,如长度指令增强(LIE)评价和LLM裁判,来准确反映LCLMs的能力。结果表明,在大多数任务中,使用16k上下文通常能够实现比使用检索到的4k上下文作为输入更好的或相当的性能。在L-Eval上测试了6个长上下文开源模型:LLaMa、LLaMa2、LongChat-16k、ChatGLM2-8k、XGen-8和MPT-65k。

L-Eval: Instituting Standardized Evaluation for Long Context Language Models

数据收集与标注

为了追求多样化、全面且相关的数据,我们从广泛的平台和来源获取数据集。这些数据集代表了日常生活和专业领域的各个方面,为长上下文语言模型(LCLMs)带来了不同的挑战。我们利用了以前开源数据集的资源、Coursera字幕、公司网站的收入电话记录、GitHub等。L-Eval中的指令风格包括多项选择题、学校数学问题、从长篇对话中检索关键话题、文本摘要和抽象问题回答,涵盖了广泛的任务。每个数据集的构建如下。
在这里插入图片描述

Lectures from Coursera

Coursera讲座数据集来源于Coursera网站。我们选择了4门课程:

  • 向数据驱动决策提问
  • 数据科学家的工具箱
  • 从脏数据到清洁数据的处理
  • 改进深度神经网络:超参数调整、正则化和优化

输入的长文档是视频的字幕。问题和正确答案由作者标注。Coursera的指令风格采用多项选择格式。为了增加任务的难度,我们设置了多个正确选项。如果没有选择所有正确选项,则只能获得该问题总分的四分之一。

在这里插入图片描述

Grade School Math

小学数学数据集来源于GSM8k数据集中的100个小学数学问题。增加高质量和复杂的例子通常对解决数学问题有积极影响。我们为这项任务构建了16个上下文示例,其中包括8个来自chain-of-thought-hub的最难提示,其余8个由我们构建。2k或4k上下文长度的模型在

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值