论文翻译：arxiv-2024 KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language

CSPhD-winston-杨帆

已于 2024-09-08 10:01:45 修改

阅读量398

点赞数 3

分类专栏： LLMs-数据污染论文翻译文章标签：语言模型人工智能自然语言处理

于 2024-09-07 21:06:22 首次发布

本文链接：https://blog.csdn.net/WhiffeYF/article/details/142004204

版权

论文翻译同时被 2 个专栏收录

50 篇文章 0 订阅

订阅专栏

LLMs-数据污染

15 篇文章 0 订阅

订阅专栏

KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models
https://arxiv.org/abs/2402.15043

KIEval：面向大型语言模型的知识基础交互式评估框架

摘要

大型语言模型（LLMs）的自动评估方法受到数据污染的阻碍，导致对它们有效性的评估过高。现有的策略，旨在检测污染文本，专注于量化污染状态，而不是准确衡量模型性能。在本文中，我们介绍了KIEval，一个知识基础的交互式评估框架，首次引入了一个由LLM驱动的“交互者”角色，以实现动态的、抗污染的评估。
从涉及特定领域知识的常规LLM基准测试中的问题开始，KIEval利用动态生成的、多轮次的、知识集中的对话来确定模型的回应是否仅仅是对基准答案的回忆，还是展示了在更复杂对话中应用知识的深层理解。
在五个数据集上的七个领先LLMs的广泛实验验证了KIEval的有效性和泛化能力。我们还揭示了数据污染对模型的实际应用性和理解没有贡献，甚至可能产生负面影响，现有的LLMs数据污染检测方法只能在预训练期间识别污染，而不能在监督微调期间识别。
1 引言
随着大型语言模型（LLMs）的出现，人工智能的格局已经发生了显著变化，它们在各种自然语言理解和生成任务中发挥了关键作用。为了更好地理解LLMs的能力和弱点，它们有效的评估变得越来越重要。
LLMs的自动评估方法通常分为两类：基于静态数据集的评估和基于LLM的评估。前者要求被评估的LLMs生成包含预定义问题的选择或答案的短文本，以挑战它们的知识。后者，也称为LLM作为评委，通常依赖LLM评估者来评估模型在给定问题或指令下的输出。尽管这些努力很有前景，但当前的评估方法仍然普遍面临数据污染的瓶颈，即在数据集的测试分割上训练的模型可能会人为地提高基准性能，高估它们在现实世界中的效率，并可能误导科学结论。
最近，为了减轻LLMs的数据污染，采用了两种主要策略。第一种是通过评估损失值或探测数据集（如Common Craw）来确定特定文本或测试样本是否存在于训练数据集中。其局限性在于只能测量污染水平，而不是实际的模型性能。同时，这种技术需要访问模型的内部结构或训练数据集，对于专有LLMs来说无效。第二种策略通过启发式方法创建动态评估样本，如基于图的过程，但这仅限于特定任务（例如，多步推理）。目前，缺乏一个能够评估在数据污染中的真实性能的通用评估协议，适用于各种任务和领域，无论是开源还是闭源LLMs。
为此，我们提出了KIEval，一个知识基础的交互式评估框架，其中首次引入了一个名为“交互者”的新型LLM驱动角色。“知识基础”一词指的是我们评估的起点，涉及提出一个需要特定领域知识的问题。“交互式”意味着评估过程通过由提议的交互者定制的结构化和动态多轮对话深入探讨与初始问题相关的知识。
这些技术设计为我们的评估框架提供了两个独特的优点。
• 抗污染：KIEval标志着与传统方法的不同，后者评估模型对静态问题的回答能力。动态多轮互动使我们能够区分模型的答案是否来自对基准答案的简单回忆，还是反映了在解决问题中应用知识的深刻理解。
• 通用和可扩展：利用先进的LLMs作为交互者的能力，使我们的评估方法普遍适用，并消除了额外人力努力的需要。同时，通过将高质量的基准数据集作为领域知识的基础，KIEval能够在不同领域、任务和语言中高效扩展，而无需大量资源投入。
我们验证了KIEval与人类的一致性，并将其与以前的评估方法进行了比较。我们的实验表明，KIEval与人类评分的皮尔逊相关系数高达0.81，强调了KIEval在反映我们设置中人类偏好方面的熟练程度，与以前的评估方法相比。我们还分析了KIEval与基于静态数据集的基准测试的相关性，发现性能的显著差异可能表明数据污染。
总的来说，我们的核心贡献是三方面的：
• 一种新的动态评估协议。KIEval通过动态多轮互动来评估LLMs，以减轻数据污染。通过与现有数据集无缝集成作为知识来源，KIEval可以成本效益地评估跨领域和任务的知识记忆和泛化。
• 对流行LLMs的广泛评估。我们使用KIEval对五个数据集上的七个领先LLMs进行了全面的实验和分析，评估了它们的生成能力和领域知识，确认了当前评估方法（例如，基于静态数据集的和基于LLM的评估）对数据污染的敏感性。
• 对数据污染的新见解。我们的调查揭示了数据污染在提高LLMs的真实理解和泛化方面的无能，当前的检测方法无法识别微调阶段的污染。
我们发布了所有必要的代码和数据，以重现我们的方法和比较的基线。1
在这里插入图片描述

CSPhD-winston-杨帆

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
论文翻译：arxiv-2024 KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language

大型语言模型（LLMs）的自动评估方法受到数据污染的阻碍，导致对它们有效性的评估过高。现有的策略，旨在检测污染文本，专注于量化污染状态，而不是准确衡量模型性能。在本文中，我们介绍了KIEval，一个知识基础的交互式评估框架，首次引入了一个由LLM驱动的“交互者”角色，以实现动态的、抗污染的评估。从涉及特定领域知识的常规LLM基准测试中的问题开始，KIEval利用动态生成的、多轮次的、知识集中的对话来确定模型的回应是否仅仅是对基准答案的回忆，还是展示了在更复杂对话中应用知识的深层理解。
复制链接

扫一扫

专栏目录