小白学大模型：L-Eval 长文本评测

AI领航者

于 2024-08-19 15:48:22 发布

阅读量205

点赞数 2

文章标签：语言模型人工智能

本文链接：https://blog.csdn.net/2401_85324918/article/details/141327399

版权

随着大型语言模型（LLMs）的发展，人们越来越关注如何扩展这些模型的上下文长度，以便更有效地处理长输入或具有广泛历史的对话。虽然像GPT-4和Claude这样的专有模型能够在扩展的上下文中保持推理能力，但开源模型仍处于发展的早期阶段。

https://arxiv.org/pdf/2307.11088

L-Eval是一个针对长上下文语言模型的更标准化的评估体系，其包含20个子任务、508个长文档和超过2000个人工标记的查询-响应对，这些内容涵盖了不同的问题风格、领域和输入长度（3k到200k个token）。

unsetunset长上下文语言模型unsetunset

长上下文输入会导致语言模型训练和推理中的瓶颈问题，因为它们需要大量的计算资源。一些社区工作集中在开发高效的注意力机制来构建高效的语言模型。一些研究工作专注于将输入分块，以同时建模当前文本块和之前的上下文状态，有效扩展了上下文处理的长度。

位置嵌入的可扩展性：位置嵌入的可扩展性也是关键问题，一些方法如ALiBi和XPOS强调局部上下文的重要性以增强模型的外推能力。
上下文长度扩展方法：基于RoPE的方法如PI（位置插值）和NTK-aware是扩展上下文长度的流行方法。然而，这些方法主要通过困惑度（PPL）来验证，并没有在实际任务上进行系统性验证。

在文章的第三部分，作者详细介绍了L-Eval数据集构建的关键步骤。具体来说，他们展示了从零开始的注释、重新注释以及手动筛选流程，并对L-Eval的数据进行了统计。以下是各个子任务的详细说明：

unsetunsetL-Eval 数据集介绍unsetunset

数据集来源

Coursera：这个数据集来源于Coursera网站上的公共课程，特别是与大数据和机器学习相关的课程。输入的长文档是视频的字幕，问题和正确答案由作者标注。Coursera数据集的特点是采用多项选择的指令格式，并设置了多个正确选项，这增加了任务的难度。
SFcition：这个子任务是为了测试LCLM对输入上下文的忠实度。作者认为，在LCLM中，上下文知识（存储在长输入中）比参数知识（在预训练期间获得）更为重要。为了模拟这种情况，作者注释了一个由真或假问题组成的科幻数据集，这些问题的答案通常与现实世界的原则相矛盾，不符合实际的物理定律。
CodeU：作为一个代码理解数据集，它要求LLM推断一个长Python程序的输出。主要使用Numpy库的源代码，并构建了一个字符串处理的代码库。为了防止LLM基于参数知识回答问题，作者替换了原始的函数名称。
LongFQA：注意到金融领域缺乏长上下文问答数据集，作者基于6家公司网站投资者关系部分的公共收益电话会议记录注释了问答对。

作者还在L-Eval中重新注释了5个公开可用的数据集：

GSM(16-shot) ：来源于GSM8k数据集的100个高中数学问题。作者构建了16个上下文示例，其中8个来自chain-of-thought-hub，另外8个由作者构建。
QuALITY：作者向这个数据集注入了新的综合指令，以测试全局上下文建模的能力。
Openreview：包含从openreview.net收集的论文。作者要求模型写摘要、总结相关工作，并给出反馈，包括有价值的建议和一些问题。
SPACE：用于测试基于方面的评论总结任务，数据集的指令由作者注释。
TopicRet：L-Eval包括一个流行的第一个主题检索任务，但作者发现检索第二个和第三个主题的任务更具挑战性，因此增强了这个任务。

数据筛选和校正

现有数据集的问题：剩余的12个任务来源于之前评估套件中使用的现有数据集。但作者发现，这些长序列数据集的注释质量波动很大，存在许多与上下文无关、无法回答的问题。
手动筛选和校正的必要性：由于这些问题很难通过之前工作中使用的自动预处理脚本来纠正，因此在L-Eval中，在数据收集之后，所有样本都经过了人工筛选和校正。
使用Claude-100k作为助手：作者使用Claude-100k模型作为助手来筛选错误的问答对和无法回答的问题。

数据集问题类型

多项选择题（TOEFL, QuALITY, Coursera）
真/假问题（SFiction）
数学问题（GSM）
代码理解（CodeU）
目标导向对话（MultiDoc2Dial）
提取式问答（CUAD, NQ）
抽象式问答（LongFQA, NarrativeQA, Qasper）
单文档摘要（GovReport, BigPatent, SummScreen, QMSum）
多文档摘要（Multi-News, SPACE）
研究写作（Openreview）

在文章的第4节中，作者提出了用于文本生成的各种评估指标，包括封闭式任务的考试评估和不同层次的开放式任务评估，其中大多数是基于参考的指标。此外，作者还进行了实验，研究了自动化指标与人类评分之间的相关性。以下是详细内容：

unsetunset长上下文评估指标unsetunset

考试评估（Exam evaluation）

这种评估方法专为封闭式任务设计，例如多项选择题。
使用的评估指标是精确匹配格式（准确率%），类似于批改考试试卷。
每个问题的分数计算为100除以问题数量。

人类评估（Human evaluation）

对于开放式任务，人类评估是最准确的评估方式。
尽管一些研究表明GPT-4可以与人类判断保持一致，但LLMs无法取代人类评估。
作者聘请人类评估者根据1到5的等级对输出进行评分，其中1表示输出较差，5表示输出优秀。

大型语言模型评估员（Large language model judges for evaluating LCLMs）

在短上下文设置中，使用LLMs进行评估是自动评估开放式任务的最准确指标。
这些工作假设LLM评估器是一个“超级模型”，但在长上下文设置中，这一假设不成立，因为不可能将所有长输入喂给像GPT-4这样的LLMs。
在L-Eval中，作者采用成对比较的格式，选择Turbo-16k-0613作为基础模型，并报告与Turbo-16k-0613相比的胜率%，即有多少样本能够超越Turbo-16k。

N-gram匹配评估（N-gram matching evaluation）

考虑到对所有任务进行人类/LLM评估仍然成本高昂，L-Eval还考虑了n-gram指标。
像ROUGEL（R-L）和F-1分数这样的n-gram指标在传统数据集中广泛使用，并且在通过执行词汇匹配的文本生成基准测试中也被广泛采用。
值得注意的是，n-gram匹配指标对真实答案的长度非常敏感，表现出长度偏差。

unsetunsetGLM 长文本评测unsetunset

测试输入为 L-Eval 数据集样例

从速度角度来看，glm-4-long模型具有最快的响应速度，仅需4.29秒。其次是glm4-airx，响应速度为4.78秒。而glm-4模型的响应速度最慢，需要19.5秒。

模型	响应速度	返回长度
glm-3-turbo	6.8 s	228 字符
glm4-airx	4.78 s	513 字符
glm4-air	6.65 s	472 字符
glm-4	19.5 s	898 字符
glm-4-9b	8.29 s	632 字符
glm-4-long	4.29 s	832 字符

那么，我们该如何学习大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

一、大模型全套的学习路线

学习大型人工智能模型，如GPT-3、BERT或任何其他先进的神经网络模型，需要系统的方法和持续的努力。既然要系统的学习大模型，那么学习路线是必不可少的，下面的这份路线能帮助你快速梳理知识，形成自己的体系。

L1级别:AI大模型时代的华丽登场

L2级别：AI大模型API应用开发工程

L3级别：大模型应用架构进阶实践

L4级别：大模型微调与私有化部署

一般掌握到第四个级别，市场上大多数岗位都是可以胜任，但要还不是天花板，天花板级别要求更加严格，对于算法和实战是非常苛刻的。建议普通人掌握到L4级别即可。

以上的AI大模型学习路线，不知道为什么发出来就有点糊，高清版可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

请添加图片描述

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

AI领航者

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
小白学大模型：L-Eval 长文本评测

Coursera：这个数据集来源于Coursera网站上的公共课程，特别是与大数据和机器学习相关的课程。输入的长文档是视频的字幕，问题和正确答案由作者标注。Coursera数据集的特点是采用多项选择的指令格式，并设置了多个正确选项，这增加了任务的难度。SFcition：这个子任务是为了测试LCLM对输入上下文的忠实度。作者认为，在LCLM中，上下文知识（存储在长输入中）比参数知识（在预训练期间获得）更为重要。
复制链接

扫一扫