引言
评估是大型语言模型(LLMs)开发和应用过程中至关重要的一环。有效的评估方法能够帮助我们理解模型的性能、发现其优势与不足,并指导模型的进一步改进。本章将详细介绍用于评估LLMs在自然语言生成(NLG)和自然语言理解(NLU)任务中的各项指标与方法,并探讨人类评估、偏见与公平性评估以及安全性和鲁棒性评估等方面的内容。
图片来源:https://www.cluebenchmarks.com/superclue_2503
1 自然语言生成 (NLG) 评估指标详解:
自然语言生成(NLG)旨在让模型生成人类可读的文本。评估NLG模型的质量需要从多个维度进行考量。
1.1 BLEU, ROUGE, METEOR 指标计算原理、优缺点、适用场景
- 计算原理:
- BLEU (Bilingual Evaluation Understudy) 通过计算模型生成文本与一个或多个参考文本之间 n-gram 的重合程度来评估翻译质量。它主要关注精确率 (precision),并引入了 brevity penalty 来惩罚过短的生成结果。公式涉及计算不同 n-gram 的匹配率,并进行几何平均。
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是一系列用于评估文本摘要质量的指标。它主要关注召回率 (recall),衡量参考摘要中有多少信息被模型生成的摘要覆盖。常见的 ROUGE 变体包括 ROUGE-N(基于 n-gram 的召回率)、ROUGE-L(基于最长公共子序列 LCS)、ROUGE-W(加权 LCS)和 ROUGE-S(基于 skip-bigram 的召回率)。
- METEOR (Metric for Evaluation of Translation with Explicit Ordering) 旨在改进 BLEU 的一些缺点。它不仅考虑了精确率和召回率,还引入了 WordNet 中的同义词和词干信息,并对 n-gram 的连续匹配进行了加权,从而更好地衡量生成文本的流畅性。
- 优缺点:
- BLEU 和 ROUGE 的优点在于易于计算、自动化程度高,且在一定程度上能够反映生成文本与参考文本的相似度。缺点是它们主要基于字面匹配,对语义相似性和文本的流畅性、连贯性捕捉不足,且高度依赖参考文本的质量。
- METEOR 的优点在于考虑了语义信息和词序,通常与人类判断的相关性更高。缺点是计算复杂度相对较高,并且依赖于外部资源(如 WordNet)。
- 适用场景:
- BLEU 广泛应用于机器翻译任务的评估。
- ROUGE 常用于评估文本摘要任务。
- METEOR 可以用于评估机器翻译和文本摘要等多种 NLG 任务,尤其在需要更精细的评估时。
1.2 Perplexity, Diversity, Novelty 指标定义、计算方法、在评估生成质量中的作用
- Perplexity:
- 定义: Perplexity 衡量的是语言模型预测文本序列的能力。它与模型在测试集上的交叉熵损失函数有关,数值越低表示模型对文本的预测能力越强,即模型认为该文本出现的可能性越高。
- 计算方法: 通常通过计算测试集上每个词的平均负对数似然的指数来得到。
- 作用: 可以作为评估语言模型流畅度和可预测性的指标。
- 局限性: Perplexity 仅反映模型在训练数据分布上的表现,不能直接反映生成文本的质量,例如生成的文本可能流畅但毫无意义。
- Diversity:
- 定义: Diversity 衡量生成文本的多样性,即模型生成不同文本的能力。
- 计算方法: 常用的方法包括计算生成文本中不同 n-gram 的比例(distinct-n)以及计算生成文本内部的重复程度(例如 self-BLEU)。
- 作用: 在开放域对话生成、故事生成等任务中,高多样性能够带来更丰富的用户体验。
-注意事项: 过度追求多样性可能导致生成不连贯或质量较低的文本。
- Novelty:
- 定义: Novelty 衡量生成文本的新颖性,即生成文本中包含的与训练数据或输入提示不同的信息量。
- 计算方法: 可以通过计算生成文本与训练数据或提示文本的 n-gram 重叠率,或者利用预训练模型计算语义相似度等方式来评估。
- 作用: 在创意性文本生成等任务中,新颖性是重要的评估指标。
- 挑战: 准确衡量语义层面的新颖性仍然是一个挑战。
1.3 NLG 评估指标的局限性与改进方向:语义相似度、上下文相关性、逻辑一致性
- 局限性: 传统的基于 n-gram 重叠的指标(如 BLEU 和 ROUGE)主要关注字面匹配,无法很好地捕捉生成文本的语义信息、上下文相关性和逻辑一致性。Perplexity 侧重于语言模型的预测能力,而 diversity 和 novelty 指标在衡量文本质量方面也存在一定的局限性。
- 改进方向:
- 语义相似度: 利用词嵌入(如 Word2Vec, GloVe)或句嵌入(如 Sentence-BERT)计算生成文本与参考文本之间的语义相似度。BERTScore 和 BLEURT 等基于预训练语言模型的评估指标能够更好地捕捉语义信息。
- 上下文相关性: 在评估对话生成或长文本生成时,需要考虑生成文本与上下文的连贯性和一致性。可以利用预训练模型对上下文和生成文本进行编码,并计算它们之间的相关性。针对对话任务,还可以考虑 turn-level 和 session-level 的评估指标。
- 逻辑一致性: 对于需要进行推理或遵循特定逻辑的任务(如故事生成、知识图谱问答),评估生成文本的逻辑正确性至关重要。这方面通常需要更复杂的评估方法,可能需要依赖人工评估或针对特定任务设计的指标。
2 自然语言理解 (NLU) 评估指标体系:
自然语言理解(NLU)旨在让模型理解人类语言的含义。评估NLU模型的性能通常涉及到分类、抽取、推理等任务。
2.1 Accuracy, Precision, Recall, F1-score 指标定义、计算方法、适用任务
- 定义与计算方法:
- Accuracy (准确率):模型预测正确的样本数占总样本数的比例。公式为:(TP + TN) / (TP + TN + FP + FN)。
- Precision (精确率):在所有被模型预测为正例的样本中,真正是正例的比例。公式为:TP / (TP + FP)。
- Recall (召回率):在所有真正的正例样本中,被模型正确预测为正例的比例。公式为:TP / (TP + FN)。
- F1-score (F1 分数):精确率和召回率的调和平均值,综合考虑了精确率和召回率。公式为:2 * (Precision * Recall) / (Precision + Recall)。
- 其中,TP (True Positive) 表示真正例,TN (True Negative) 表示真负例,FP (False Positive) 表示假正例,FN (False Negative) 表示假负例。
- 适用任务:
- Accuracy 常用于评估类别均衡的分类任务。
- Precision 和 Recall 在类别不平衡的分类任务中非常重要,Precision 关注预测为正例的准确性,Recall 关注所有正例是否都被正确识别。
- F1-score 是一个综合性的指标,常用于评估分类、命名实体识别和情感分析等任务,尤其在类别不平衡时能提供更可靠的评估结果。
2.2 Exact Match (EM), F1 值在问答任务中的应用与局限性
- 应用: 在问答任务中,特别是抽取式问答(模型需要从给定的文本中抽取答案)和生成式问答(模型需要生成答案)中,Exact Match (EM) 指标衡量模型预测的答案是否与标准答案完全一致。F1 值 则在答案是文本片段的任务中,衡量模型预测的答案与标准答案之间的词语重叠程度。
- 局限性: EM 指标过于严格,即使模型预测的答案在语义上与标准答案相同,但只要字面上不完全一致,就会被认为是错误的。F1 值 虽然考虑了词语重叠,但在评估需要复杂推理或生成长答案的问答任务时,可能无法完全反映答案的质量和语义正确性。
2.3 常见 NLU Benchmark 数据集与评测标准:GLUE, SuperGLUE, SuperCLUE 等
- GLUE (General Language Understanding Evaluation) 是一个广泛使用的英文自然语言理解基准,包含了一系列不同的 NLU 任务,例如文本蕴含、情感分析、语义相似度等。每个任务都有其特定的评估指标,例如准确率和 F1 分数。
- SuperGLUE 是 GLUE 的升级版,旨在包含更具挑战性的 NLU 任务,以评估模型更高级的语言理解能力。它包含了问答、自然语言推理等更复杂的任务,并沿用了 GLUE 的评估方法,每个任务使用相应的评估指标。
- SuperCLUE (中文通用语言模型评测基准) 是由清华大学等机构发布的中文通用语言模型评测基准,旨在全面评估中文大语言模型在各种任务上的性能。它涵盖了基础能力(如知识问答、常识判断)、语言理解(如阅读理解、文本分类)、语言生成(如写作、对联)以及推理与决策等多个方面。SuperCLUE 的评估指标包括准确率、F1 值等,具体取决于不同的任务。SuperCLUE 的出现填补了中文大模型全面评估基准的空白,对于推动中文 NLP 的发展具有重要意义。与 GLUE/SuperGLUE 主要面向英文任务不同,SuperCLUE 的任务设计更贴合中文的语言特点和实际应用场景。读者可以通过访问 SuperCLUE 的官方网站 查看更详细的任务介绍和模型排行榜。
- 除了 SuperCLUE,中文领域还有其他重要的 NLU 基准,例如 CMMLU (Chinese Massive Multitask Language Understanding),它由上海交通大学发布,侧重于评估模型在各种学术任务上的理解和推理能力,涵盖了人文、社科、科学、技术等多个领域。CEval (China English Evaluation Benchmark) 是一个综合性的中英文语言模型评估基准,覆盖了多个学科的知识,可以用于评估模型在不同语言和知识领域的表现。OpenCompass 是一个开源的大模型评测平台,支持多种模型和数据集,包括中文和英文,为研究人员提供了一个灵活的评估工具。
3 人类评估 (Human Evaluation) 方法与实践:
尽管自动化评估指标在效率上具有优势,但人类评估在评估 LLMs 生成文本的质量、相关性和一致性等方面仍然至关重要。
3.1 人工评估流程设计:评估维度选择、评估指南制定、评估人员培训
- 评估维度选择: 根据具体的任务和评估目标,选择合适的评估维度,例如流畅性、连贯性、相关性、准确性、信息量、创造性等。对于不同的任务,评估的侧重点可能会有所不同。
-评估指南制定: 制定清晰、详细、易于理解的评估指南,明确每个评估维度的定义和衡量标准,确保评估人员能够以一致的方式进行评估。 - 评估人员培训: 对评估人员进行充分的培训,使其理解评估任务、评估维度和评估指南,并进行一定的练习,以提高评估的准确性和一致性。
* 3.2 人工评估方法:Pairwise 比较、直接评分、用户满意度调查
- Pairwise 比较 (成对比较):评估人员比较两个或多个模型的输出,并选择他们认为在特定维度上更优的一个。这种方法相对容易做出判断,但评估成本较高。
- 直接评分 (Direct Rating):评估人员根据预定义的评估维度,使用一个量表(例如 Likert scale)对模型的输出进行直接打分。这种方法可以更细致地评估不同维度的质量。
- 用户满意度调查 (User Satisfaction Survey):通过问卷调查等方式收集用户对模型输出的反馈和满意度,更直接地反映了模型在实际应用中的表现。
3.3 人工评估结果统计分析与质量控制:Inter-Annotator Agreement, Kappa 系数
- Inter-Annotator Agreement (IAA,评估者间一致性):衡量不同评估人员之间对同一份数据的评估结果的一致性程度。高 IAA 表明评估指南清晰、评估人员理解一致,评估结果更可靠。
- Kappa 系数:常用的 IAA 衡量指标,例如 Cohen’s Kappa 和 Fleiss’ Kappa,用于量化评估者之间的一致性程度,并校正随机一致性的影响。不同的 Kappa 系数值对应不同程度的一致性。
- 质量控制: 通过定期计算 IAA,可以监控评估质量,发现评估过程中存在的问题,并对评估人员进行必要的培训或调整,以提高评估的可靠性。
4 Bias 和 Fairness (偏见与公平性) 评估指标与工具:
随着 LLMs 的广泛应用,其潜在的偏见和公平性问题日益受到关注。评估和缓解这些问题至关重要。
4.1 偏见类型识别与分析:性别偏见、种族偏见、地域偏见等
- 偏见类型: LLMs 可能在训练数据中学习到各种偏见,例如性别偏见(在职业描述中倾向于将某些职业与特定性别关联)、种族偏见(在描述犯罪行为时可能对特定种族群体存在刻板印象)、地域偏见等。
- 识别与分析: 可以通过构建特定的测试用例,例如使用包含不同社会群体的提示,观察模型的输出是否存在差异化的对待。也可以利用统计方法分析模型在不同群体上的性能差异。
4.2 Fairness metrics 定义与计算:Demographic Parity, Equal Opportunity, Equalized Odds
- Demographic Parity (人口统计学均等):要求模型在不同敏感属性(如性别、种族)的群体中产生相同比例的积极结果。
- Equal Opportunity (机会均等):要求模型在所有真正属于积极类别的个体中,为不同敏感属性的群体给出相同比例的积极预测。
- Equalized Odds (赔率均等):要求模型在真正属于积极类别和真正属于消极类别的个体中,为不同敏感属性的群体给出相同的积极预测比例。
- 这些 metrics 的计算涉及到对不同群体预测结果的统计分析。
4.3 Bias 评估工具与 benchmark 数据集:Fairlearn, AI Fairness 360
- Fairlearn 是一个 Python 工具包,旨在帮助评估和缓解机器学习模型中的公平性问题。它提供了各种 fairness metrics 的计算方法,以及用于模型 debiasing 的算法。
- AI Fairness 360 (AIF360) 是 IBM 开源的工具箱,包含了一系列 fairness metrics、解释器和算法,可以帮助开发者检测和减轻 AI 模型中的偏见。
- 存在一些专门用于评估模型偏见的 benchmark 数据集,例如用于评估语言模型中性别偏见的 Winogender 数据集等。
5 大模型安全性和鲁棒性评估方法与指标:对抗攻击评估、Prompt Injection 攻击评估、安全漏洞检测
随着 LLMs 能力的增强,对其安全性和鲁棒性的评估也变得越来越重要。
- 对抗攻击评估: 对抗攻击是指通过对输入进行微小的、人眼难以察觉的扰动,使得模型产生错误的输出。评估模型在面对对抗性输入时的鲁棒性,可以帮助我们了解模型的脆弱性。常用的评估方法包括生成各种类型的对抗样本,并测试模型在这些样本上的性能。
- Prompt Injection 攻击评估: Prompt Injection 攻击是指通过精心设计的输入提示,诱导模型执行不希望的操作或泄露敏感信息。评估模型抵抗 Prompt Injection 攻击的能力,对于确保模型的安全性至关重要。评估方法通常包括设计各种攻击性 prompt,并观察模型的响应。
- 安全漏洞检测: 除了对抗攻击和 Prompt Injection 外,还需要检测模型可能存在的其他安全漏洞,例如生成有害内容(仇恨言论、暴力内容等)、泄露训练数据中的敏感信息等。这方面通常需要结合自动化工具和人工审查。
总结:
本章介绍了评估大型语言模型的多种指标和方法,涵盖了自然语言生成和理解任务的常见自动化评估指标、人类评估方法、偏见与公平性评估以及安全性和鲁棒性评估。选择合适的评估方法和指标对于全面了解 LLMs 的性能至关重要,并且能够指导模型的进一步发展和应用。随着技术的不断进步,未来还将涌现出更多更有效的评估方法,以更好地衡量 LLMs 的能力和安全性。
内容同步在我的微信公众号: 智语Bot