大模型评测指南-生成篇

最新推荐文章于 2025-03-27 15:11:06 发布

脱泥不tony

最新推荐文章于 2025-03-27 15:11:06 发布

阅读量841

点赞数 9

文章标签：人工智能自然语言处理大语言模型大模型评测大模型语言模型 LLM

本文链接：https://blog.csdn.net/2401_85378759/article/details/144205011

版权

进行评测之前，首先要明确评测对象：是评测大模型生成文本的质量，还是评测大模型应用（例如RAG）的性能？两者之间存在一定关联性，但又不尽相同。本文介绍评测大模型生成能力的指标和方法。

传统统计指标

理论上，所有传统的文本生成评价指标都能用于评测大模型，如BLEU、ROUGE等。但是，这些统计指标既没有融合语义信息，也不能反映推理能力。

以BLEU为例，通过计算生成文本和金标准之间的重合的n-gram占生成文本的比例，衡量生成文本（例如机器翻译）的准确性。但是，n-gram之间的匹配度真能准确表现语义相似度吗？

ROUGE也面临同样问题。事实上，OpenAI在22年发表的RLHF的经典论文 Learning to summarize from human feedback 在摘要中就指出ROUGE只是对生成文本质量的粗略评估。也正是为了颠覆ROUGE这样的粗糙指标，这篇论文提出RLHF方法，直接把AI送进大模型时代。

当然，统计指标并非一无是处，至少它们具有很高的可靠性：计算公式明明白白，分数高低一算便知，谁也改不了。有些生成任务仍需要用准确率、召回率等传统指标衡量，例如“伪装”成生成任务的分类任务等。所以传统统计指标仍然活跃在大模型评测一线。

LLM-as-a-Judge

为了评测生成文本的语义信息，人们想出了用深度学习模型评价生成文本的方法。一个经典方法是BERTScore，下图展示了它计算召回指标的过程：

可以看出，BERTScore通过计算生成文本和金标准之间每个token embedding之间的相似度，作为衡量生成文本召回表现的指标。实际上，BERT算是一种特殊的LLM，参数量放在几年前看也是相当巨大的。只不过如今基于GPT的LLM层出不穷，BERT也略显暗淡。

但是，“用模型评测模型”的思路并没有问题。既然现在最强大的模型是LLM，何不直接用LLM评价生成质量？于是LLM-as-a-Judge应运而生。下面介绍几个经典LLM-as-a-Judge方法。

G-Eval

2023年由微软提出。以下图为例：假设要评价新闻摘要的连贯性，首先把任务和评价标准的描述输入大模型，大模型自动生成详细的评价步骤思维链；然后把原文、摘要和评价步骤拼接起来，形成完整的提示词输入模型，让模型输出摘要评分。

然而，大模型倾向于输出整数，或者总是输出相同的分数。为了避免这种情况，G-Eval不是让大模型直接输出一个分数，而是输出在各分数上的概率分布，最终评分是所有分数的加权平均。
GPTScore

2023年由新加坡国立大学和卡内基梅隆大学提出。以下图为例：假设要让大模型评价摘要的相关性，首先把任务描述、领域定义以及一些示例填进模板，然后拼接待评价的摘要以及原文形成完整提示词，输入大模型。注意，这里要求大模型输出刚刚输入的提示词。（如果是用OpenAI API，就要设置logprobs参数并把echo置为True。）最后计算待评价摘要对应的每个token的logprob之和。

GPTScore基于这样一个假设：给定任务和评价标准的描述，大模型倾向于生成高质量文本。因此，要评价一段生成文本的质量，只需要计算大模型生成这段文本的概率：概率越大，质量越高。
SelfCheckGPT

2023年由剑桥大学提出。这个方法专门用于评测大模型的幻觉。它基于一个非常直观的假设：如果一个大模型确实具备某项知识，那么对它多次采样生成的回复中有很大概率包含与该知识一致的事实；相反，如果大模型的多次回复自相矛盾，就说明大模型不具备这项知识，它产生了幻觉。

以下图为例：假设要评测GPT-3生成的一段文本中的某句话是否为幻觉，可以从GPT-3采样N个回复，把这些回复和待检测的句子输入一个大模型，判断有几个回复可以支持这句话，算出比例作为评分。