理解LLM评估指标综述：可靠评估LLM的最佳实践-CSDN博客

本文链接：https://blog.csdn.net/llm_way/article/details/148063713

大语言模型（LLMs）作为强大工具，在众多领域崭露头角。从客户服务、市场营销，到研究和产品开发，大语言模型的应用日益广泛，它们能够简化流程、辅助决策并提升用户体验。然而，能力越大，责任越大。确保这些模型的可靠性、性能和适用性至关重要，而大语言模型评估指标在其中发挥着关键作用。

一、大语言模型评估指标的重要性

随着大语言模型融入商业运作，使用未经充分评估的模型可能会导致严重后果。模型产生的误导性输出可能会误导决策，在法律合规性方面，不准确的输出可能使企业面临法律责任。例如，在法律文件生成或解释场景中，错误的表述可能引发法律纠纷。此外，一旦用户发现模型提供的信息不可靠，就会对产品或服务失去信任，损害企业的声誉。因此，无论是数据科学家、机器学习工程师，还是产品经理和合规团队，都需要深入了解如何衡量大语言模型的性能、可靠性以及是否适合实际应用。

二、常用大语言模型评估指标详解

（一）困惑度（Perplexity）

困惑度是语言建模中的一个标准指标，用于量化语言模型预测标记序列的能力。简单来说，它衡量模型在生成文本时的 “困惑程度”：困惑度越低，模型预测下一个词的能力越强。如果模型能为正确的下一个词分配高概率，说明它很 “自信”，困惑度就低；反之，如果模型将概率分散到许多错误选项上，困惑度就高。例如，困惑度为1意味着模型总能准确预测下一个正确的词；困惑度为10则表示模型的不确定性相当于从10个同等可能的词中随机选择。在实际应用中，比如产品经理在评估用于内部知识搜索的大语言模型时，通过计算不同模型在公司语料库上的困惑度来进行比较。若GPT - 3的困惑度为15.2，Claude的困惑度为12.7，那么Claude在对内部文档建模方面表现更优，生成的内容可能更流畅、更相关。不过，困惑度也存在局限性，它无法衡量事实准确性，一个困惑度低的模型生成的内容可能流畅但存在事实性错误；它也不针对特定任务，不能体现模型在分类、问答或摘要等任务中的表现；并且，困惑度对分词器的选择很敏感，不同的分词方案会导致不同的困惑度得分。困惑度主要用于预训练或微调过程中监测模型的收敛情况，在选择基础模型用于下游任务前比较模型质量，以及在语言建模基准测试（如WikiText、Penn Treebank）中跟踪模型的改进情况。

（二）精确匹配（Exact Match，EM）

精确匹配是评估语言模型输出最简单且最严格的指标之一。它检查预测输出是否与参考（标准答案）完全匹配，若完全匹配，分数为1，否则为0。例如，当询问模型 “法国的首都是什么？”，如果模型回答 “Paris”，则精确匹配得分是1；但如果回答是 “The capital of France is Paris” 或 “paris”（小写），尽管意思正确，但由于格式不一致，精确匹配得分仍为0。在发票处理场景中，如果企业使用大语言模型从客户电子邮件中提取发票号码，由于发票号码必须完全匹配，精确匹配就可用于衡量模型准确提取字符串的频率。精确匹配的局限性在于过于严格，会对语义正确但措辞不同的答案进行惩罚；对格式差异过于敏感，标点或大小写的细微变化就会导致得分为0；而且它是二元结果，只能表明预测是否完美，无法说明预测错误的程度。精确匹配适用于封闭域问答或具有高度结构化输出的提取任务，在对正确性要求极高的场景（如用户名、代码、数字答案等）以及早期基准测试中，严格匹配可用于诊断目的。

（三）BLEU / ROUGE / METEOR

BLEU（双语评估替补）、ROUGE（面向召回率的摘要评估替补）和METEOR（带显式排序的翻译评估指标）是广泛用于评估文本生成任务（如机器翻译、摘要和文本改写）的n - gram重叠指标。BLEU衡量精度，即预测的n - gram在参考文本中出现的比例；ROUGE衡量召回率，即参考文本中的n - gram在预测输出中出现的比例；METEOR则结合了精度和召回率，并增加了词干提取和同义词匹配等功能。以电商产品描述为例，零售商使用大语言模型自动生成产品描述，将人工编写的描述作为参考，通过计算BLEU和ROUGE分数来评估生成内容的流畅性和信息性，同时使用METEOR来捕捉 “soft cotton shirt” 和 “cotton shirt with a soft feel” 这类表述差异。这些指标的局限性在于只是表面匹配，无法处理释义或不同的正确表述；对单词顺序非常敏感（尤其是BLEU）；METEOR虽然更灵活，但计算速度较慢且依赖特定语言。当有一个或多个人工编写的参考文本，且希望衡量模型输出在词汇选择、措辞和结构方面与参考文本的匹配程度时，适合使用这些指标，特别是在营销内容创作、翻译本地化、摘要撰写等对流畅性、措辞和格式要求较高的任务中。

（四）BERTScore

BERTScore是一种通过使用预训练的上下文嵌入（通常来自BERT或RoBERTa）来衡量候选输出与参考文本之间语义相似度，进而评估生成文本质量的指标。与传统的n - gram重叠指标（如BLEU或ROUGE）不同，BERTScore能够检测模型输出与参考文本是否具有相同含义，即使单词不同也能识别。在客户支持问答场景中，假设标准答案是 “You can reset your password in the account settings section.”，模型生成的答案是 “Head to your profile settings to change your password.”，虽然两个答案不是逐字匹配，但语义相同，BERTScore能够识别这种一致性，而BLEU或ROUGE可能会因为表述差异而给出较低分数。BERTScore的缺点是计算成本高，需要嵌入大量标记并计算成对相似度；结果依赖于所使用的嵌入模型；并且它无法理解语法或句子结构。当语义正确性比表面形式更重要时，BERTScore非常适用，如在问答系统中的答案验证、释义检测、摘要评估和语义搜索结果比较等任务中。

（五）人工评判（Human Judgment）

人工评判是指由人工注释者根据各种主观维度评估大语言模型的输出质量，这些维度包括相关性（回答与问题或提示的匹配程度）、有用性（信息对用户是否实际有用）、事实准确性（内容是否正确）、清晰度（文本是否易于理解）、语气/风格（回答是否符合所需语气或品牌风格）。在法律科技应用中，公司开发人工智能工具生成法律条款摘要时，可让5名法律专业人员对大语言模型生成的摘要进行盲测，要求他们根据清晰度和正确性在5分制李克特量表上进行评分，以此帮助团队微调模型并验证其是否准备好投入生产。人工评判的局限性在于具有主观性，不同注释者的评分可能存在差异，因此需要跟踪评分者之间的一致性；成本较高，需要耗费人力和专业知识；速度较慢，难以扩展到数千个样本；并且结果不可重现，依赖于评分者本身。人工评判适用于高风险应用场景（如法律、医疗、教育领域）、创意或生成性任务（如讲故事、营销文案创作）、自动指标不足或不可靠的情况以及生产系统中的用户体验验证。为了提高人工评判的质量，最好使用多个注释者并测量评分者间的一致性（如使用科恩kappa系数）；随机化和匿名化样本以避免偏差；设计清晰、一致的评分标准；并将其与自动指标结合用于混合评估流程。

（六）大语言模型作为评判者（LLM - as - a - Judge）

大语言模型作为评判者是一种可扩展的自动化方法，它使用另一个大语言模型对候选输出进行评分、评级或比较。在快速迭代周期和大规模实验中，人工评估过于缓慢或成本过高，这种方法就显得尤为有用。例如，科技公司在测试内部支持聊天机器人的不同大语言模型供应商时，可让GPT - 4以两两比较的方式评判输出，选择最佳答案并解释原因，然后汇总结果以指导模型选择和部署。不过，这种方法存在评估者偏差的问题，模型可能会偏向更长、更冗长或语法更完美的输出，即使这些输出可能是错误的；模型的判断缺乏一致性，相同的提示在不同运行中可能会产生不同的评级；而且缺乏标准答案，依赖评估者的判断并不一定可靠，还存在模型可能会针对评估者的喜好进行优化而不是满足用户需求的风险。大语言模型作为评判者适用于大规模快速模型比较（如A/B测试或微调循环期间）、人工评估成本过高或耗时过长的情况、排行榜式的基准测试（如LMSYS Chatbot Arena）以及在进行小规模人工评估之前作为预筛选步骤。为了减少偏差，最好使用多个评估提示；设置温度为0以确保判断的一致性；混入一小部分人工标记的样本以校准和验证评估结果；还可以考虑使用思维链提示来获得更好的推理。

（七）跨度级F1值（Span - Level F1）

跨度级F1值通过将精确率和召回率结合为一个分数，来衡量模型提取特定文本跨度的能力。它常用于命名实体识别（NER）、提取式问答（QA）和信息提取等任务。在客户支持中的个人身份信息（PII）提取场景中，公司希望自动从传入电子邮件中删除客户的PII（如电子邮件地址、电话号码和账户ID），通过标注数据集中PII出现的跨度作为标准答案，模型输出预测的删除跨度，跨度级F1值可评估模型识别敏感数据的精确程度和完整程度。跨度级F1值的局限性在于需要高质量的跨度级注释，这可能非常耗费人力；对边界错误很敏感，即使跨度几乎正确但稍有偏差也会受到惩罚；并且它不适用于自由形式的生成任务，只适用于结构化提取任务。跨度级F1值适用于命名实体识别、提取式问答（如在文档中查找答案跨度）、文档解析（如键值对提取）以及医疗、法律或金融数据提取等场景。

（八）忠实度/依据性（Faithfulness / Groundedness）

忠实度（也称为依据性）衡量模型生成的输出在给定上下文或源材料中是否有事实依据。在检索增强生成（RAG）系统中，模型需要根据检索到的文档生成答案，忠实度尤为重要。一个回答被认为是忠实的，需要满足没有与源材料相矛盾的主张，并且每一个事实性主张都可以追溯到外部或检索到的证据。在企业IT的聊天机器人合规性场景中，聊天机器人根据内部政策PDF文件提供答案。如果用户询问 “Can I install third - party apps on my work laptop?”，而政策文档规定 “Only apps from the internal catalog are allowed.”，但模型输出 “You are allowed to install third - party apps.”，这个输出就是不忠实的，可能会导致政策违规。评估忠实度有助于确保合规性和用户信任。目前衡量忠实度没有单一的公式，常见方法有人工注释（将生成的输出与源材料进行比较，标记为忠实或不忠实）、使用另一个大语言模型作为审查者（让其识别无依据的主张、矛盾或幻觉）、二元/基于量表的评估（如忠实与不忠实的二元判断或1 - 5分的依据程度评分）以及事实匹配或证据追踪（如果有结构化参考，则将输出中的每个句子映射到源引用，并评分覆盖范围和一致性）。忠实度的局限性在于没有标准的基准或指标，缺乏通用的定量分数；人工评估具有主观性；大语言模型评估者本身可能会产生幻觉，从而遗漏细微的矛盾或错误确认无依据的主张。忠实度适用于检索增强生成管道（如文档问答、基于知识库的聊天机器人）、法律、医疗和金融等对事实依据至关重要的应用领域、企业人工智能（要求模型遵循已知政策或文档）以及学术摘要撰写或基于引用的报告生成。为了更好地评估忠实度，最好突出输出中的事实性主张并要求引用映射；在关键领域使用人工介入的工作流程；使用对比示例（忠实与不忠实的示例）训练模型；并纳入检索置信度信号。

（九）归一化折损累计增益（nDCG）/平均倒数排名（MRR）

nDCG和MRR是评估排名质量的标准指标，特别适用于返回排序列表的系统，如搜索引擎、推荐系统和RAG检索器。nDCG衡量模型对相关结果的排名能力，同时考虑相关性和位置因素；MRR则关注第一个正确项目在排序列表中出现的位置。在客户支持的常见问题解答（FAQ）检索场景中，企业使用基于大语言模型的搜索为客户查询返回前5个最相关的FAQ文章，根据过去的用户点击或专家判断为相关性打分，nDCG用于衡量最佳答案是否排在前列，MRR用于检查第一个正确答案是否在列表中较早出现。这两个指标的局限性在于需要带有分级或二元相关性标签的注释数据集；对相关性的主观判断很敏感；MRR假设每个查询只有一个正确答案，不太适用于多答案问题。nDCG和MRR适用于评估RAG检索器和语义搜索组件、推荐引擎中的排名系统、优化对引用或知识片段进行排名的大语言模型，以及在排名位置和用户相关性对任务成功至关重要的场景中。

（十）幻觉率（Hallucination Rate）

幻觉率指的是模型输出中包含事实错误、编造或无依据主张的比例，尤其在模型应基于可验证知识（如从检索到的文档或结构化数据库中获取的知识）生成输出的场景中。在法律合同摘要场景中，律师事务所使用大语言模型总结合同，一些生成的摘要可能会编造原始文档中不存在的义务或条款。通过注释者手动标记包含幻觉的摘要，并跟踪模型不同版本的幻觉率，目标是在生产部署前将幻觉率降低到5%以下。衡量幻觉率的方法有手动注释（将生成的输出与源/参考文档进行比较，标记为忠实或幻觉）、基于大语言模型的事实核查（使用另一个大语言模型识别和验证事实主张）、实体匹配/事实检索（将输出与数据库中的已知事实进行比较，如 Wikidata、产品目录），并且可以采用不同的评分粒度（二元判断或每个输出中幻觉句子/主张的比例）。幻觉率的局限性在于人工标注工作量大，需要时间和专业知识；大语言模型评判者本身可能会产生幻觉；难以检测细微错误，一些小的幻觉也可能产生重大影响；并且存在主观性，依据性可能取决于对可验证来源的定义。幻觉率适用于对事实正确性要求极高的高信任领域，如法律合规、医疗保健和临床文档、财务报告或投资研究、学术或政府摘要撰写，以及检索增强生成应用中，以确保输出基于检索到的上下文。为了更好地处理幻觉问题，最好将手动评估和自动评估相结合；使用主张提取在句子或子句级别分析幻觉；审计幻觉类型（如虚构实体与误导性数字）；并将幻觉反馈纳入微调或拒绝采样流程。

三、综合评估策略与最佳实践

对于端到端的大语言模型应用，单一指标不足以全面评估模型性能，应结合特定任务指标和整体指标。例如，在评估用于内容创作的大语言模型时，可以同时使用BLEU评估生成文本与参考文本的匹配度，使用忠实度评估内容的事实依据性，再结合人工评判来综合考量内容的创意性和用户体验。在实际评估过程中，只要条件允许，应将自动评分与人工审查相结合。自动评分能够快速处理大量数据，提供初步的评估结果；而人工审查则可以捕捉到自动指标无法发现的细微问题，确保评估结果符合业务需求。许多现代工作流程将 “大语言模型作为评判者” 作为人工评估前的高效预筛选步骤。这样可以在早期快速排除明显不符合要求的模型输出，减少人工评估的工作量，同时也能利用大语言模型的语言理解和推理能力，提高评估效率。不过，在使用这一方法时，需要注意结合前面提到的最佳实践，减少评估偏差，确保评估结果的可靠性。

大语言模型评估是一项多维度的任务，既需要定量的严谨性，也需要定性的洞察力。不同的评估指标各有优劣，适用于不同的场景和任务。在实际应用中，应根据具体的业务需求、模型应用场景以及资源限制，选择合适的评估指标组合，并不断优化评估策略。随着大语言模型技术的不断发展，评估方法也需要与时俱进。企业和研究人员应持续关注新的评估指标和技术，投资于评估工具的开发和优化，加强工程、产品和合规团队之间的沟通与协作，形成有效的反馈循环，从而确保大语言模型在实际应用中的可靠性和有效性，为用户提供高质量的服务和价值。