小白学大模型:L-Eval 长文本评测

随着大型语言模型(LLMs)的发展,人们越来越关注如何扩展这些模型的上下文长度,以便更有效地处理长输入或具有广泛历史的对话。虽然像GPT-4和Claude这样的专有模型能够在扩展的上下文中保持推理能力,但开源模型仍处于发展的早期阶段。

https://arxiv.org/pdf/2307.11088

L-Eval是一个针对长上下文语言模型的更标准化的评估体系,其包含20个子任务、508个长文档和超过2000个人工标记的查询-响应对,这些内容涵盖了不同的问题风格、领域和输入长度(3k到200k个token)。

unsetunset长上下文语言模型unsetunset

长上下文输入会导致语言模型训练和推理中的瓶颈问题,因为它们需要大量的计算资源。一些社区工作集中在开发高效的注意力机制来构建高效的语言模型。一些研究工作专注于将输入分块,以同时建模当前文本块和之前的上下文状态,有效扩展了上下文处理的长度。

  • 位置嵌入的可扩展性:位置嵌入的可扩展性也是关键问题,一些方法如ALiBi和XPOS强调局部上下文的重要性以增强模型的外推能力。

  • 上下文长度扩展方法:基于RoPE的方法如PI(位置插值)和NTK-aware是扩展上下文长度的流行方法。然而,这些方法主要通过困惑度(PPL)来验证,并没有在实际任务上进行系统性验证。

在文章的第三部分,作者详细介绍了L-Eval数据集构建的关键步骤。具体来说,他们展示了从零开始的注释、重新注释以及手动筛选流程,并对L-Eval的数据进行了统计。以下是各个子任务的详细说明:

unsetunsetL-Eval 数据集介绍unsetunset

数据集来源

  1. Coursera:这个数据集来源于Coursera网站上的公共课程,特别是与大数据和机器学习相关的课程。输入的长文档是视频的字幕,问题和正确答案由作者标注。Coursera数据集的特点是采用多项选择的指令格式,并设置了多个正确选项,这增加了任务的难度。

  2. SFcition:这个子任务是为了测试LCLM对输入上下文的忠实度。作者认为,在LCLM中,上下文知识(存储在长输入中)比参数知识(在预训练期间获得)更为重要。为了模拟这种情况,作者注释了一个由真或假问题组成的科幻数据集,这些问题的答案通常与现实世界的原则相矛盾,不符合实际的物理定律。

  3. CodeU:作为一个代码理解数据集,它要求LLM推断一个长Python程序的输出。主要使用Numpy库的源代码,并构建了一个字符串处理的代码库。为了防止LLM基于参数知识回答问题,作者替换了原始的函数名称。

  4. LongFQA:注意到金融领域缺乏长上下文问答数据集,作者基于6家公司网站投资者关系部分的公共收益电话会议记录注释了问答对。

作者还在L-Eval中重新注释了5个公开可用的数据集:

  • GSM(16-shot) :来源于GSM8k数据集的100个高中数学问题。作者构建了16个上下文示例,其中8个来自chain-of-thought-hub,另外8个由作者构建。

  • QuALITY:作者向这个数据集注入了新的综合指令,以测试全局上下文建模的能力。

  • Openreview:包含从openreview.net收集的论文。作者要求模型写摘要、总结相关工作,并给出反馈,包括有价值的建议和一些问题。

  • SPACE:用于测试基于方面的评论总结任务,数据集的指令由作者注释。

  • TopicRet:L-Eval包括一个流行的第一个主题检索任务,但作者发现检索第二个和第三个主题的任务更具挑战性,因此增强了这个任务。

数据筛选和校正

  • 现有数据集的问题:剩余的12个任务来源于之前评估套件中使用的现有数据集。但作者发现,这些长序列数据集的注释质量波动很大,存在许多与上下文无关、无法回答的问题。

  • 手动筛选和校正的必要性:由于这些问题很难通过之前工作中使用的自动预处理脚本来纠正,因此在L-Eval中,在数据收集之后,所有样本都经过了人工筛选和校正。

  • 使用Claude-100k作为助手:作者使用Claude-100k模型作为助手来筛选错误的问答对和无法回答的问题。

数据集问题类型

  • 多项选择题(TOEFL, QuALITY, Coursera)

  • 真/假问题(SFiction)

  • 数学问题(GSM)

  • 代码理解(CodeU)

  • 目标导向对话(MultiDoc2Dial)

  • 提取式问答(CUAD, NQ)

  • 抽象式问答(LongFQA, NarrativeQA, Qasper)

  • 单文档摘要(GovReport, BigPatent, SummScreen, QMSum)

  • 多文档摘要(Multi-News, SPACE)

  • 研究写作(Openreview)

在文章的第4节中,作者提出了用于文本生成的各种评估指标,包括封闭式任务的考试评估和不同层次的开放式任务评估,其中大多数是基于参考的指标。此外,作者还进行了实验,研究了自动化指标与人类评分之间的相关性。以下是详细内容:

unsetunset长上下文评估指标unsetunset

考试评估(Exam evaluation)
  • 这种评估方法专为封闭式任务设计,例如多项选择题。

  • 使用的评估指标是精确匹配格式(准确率%),类似于批改考试试卷。

  • 每个问题的分数计算为100除以问题数量。

人类评估(Human evaluation)
  • 对于开放式任务,人类评估是最准确的评估方式。

  • 尽管一些研究表明GPT-4可以与人类判断保持一致,但LLMs无法取代人类评估。

  • 作者聘请人类评估者根据1到5的等级对输出进行评分,其中1表示输出较差,5表示输出优秀。

大型语言模型评估员(Large language model judges for evaluating LCLMs)
  • 在短上下文设置中,使用LLMs进行评估是自动评估开放式任务的最准确指标。

  • 这些工作假设LLM评估器是一个“超级模型”,但在长上下文设置中,这一假设不成立,因为不可能将所有长输入喂给像GPT-4这样的LLMs。

  • 在L-Eval中,作者采用成对比较的格式,选择Turbo-16k-0613作为基础模型,并报告与Turbo-16k-0613相比的胜率%,即有多少样本能够超越Turbo-16k。

N-gram匹配评估(N-gram matching evaluation)
  • 考虑到对所有任务进行人类/LLM评估仍然成本高昂,L-Eval还考虑了n-gram指标。

  • 像ROUGEL(R-L)和F-1分数这样的n-gram指标在传统数据集中广泛使用,并且在通过执行词汇匹配的文本生成基准测试中也被广泛采用。

  • 值得注意的是,n-gram匹配指标对真实答案的长度非常敏感,表现出长度偏差。

unsetunsetGLM 长文本评测unsetunset

测试输入为 L-Eval 数据集样例

从速度角度来看,glm-4-long模型具有最快的响应速度,仅需4.29秒。其次是glm4-airx,响应速度为4.78秒。而glm-4模型的响应速度最慢,需要19.5秒。

模型响应速度返回长度
glm-3-turbo6.8 s228 字符
glm4-airx4.78 s513 字符
glm4-air6.65 s472 字符
glm-419.5 s898 字符
glm-4-9b8.29 s632 字符
glm-4-long4.29 s832 字符

那么,我们该如何学习大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、大模型全套的学习路线

学习大型人工智能模型,如GPT-3、BERT或任何其他先进的神经网络模型,需要系统的方法和持续的努力。既然要系统的学习大模型,那么学习路线是必不可少的,下面的这份路线能帮助你快速梳理知识,形成自己的体系。

L1级别:AI大模型时代的华丽登场

L2级别:AI大模型API应用开发工程

L3级别:大模型应用架构进阶实践

L4级别:大模型微调与私有化部署

一般掌握到第四个级别,市场上大多数岗位都是可以胜任,但要还不是天花板,天花板级别要求更加严格,对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。

以上的AI大模型学习路线,不知道为什么发出来就有点糊,高清版可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

请添加图片描述

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值