大模型LLM large language model性能指标（二），SuperGlue

juhanishen

已于 2024-02-29 18:35:37 修改

阅读量700

点赞数

文章标签：语言模型人工智能自然语言处理

于 2024-02-29 18:29:01 首次发布

原文链接：https://deepgram.com/learn/superglue-llm-benchmark-explained

版权

1. 背景

前文已经介绍了指标参数Rouge和BLEU，这次要介绍SueprGlue。Rouge 和 BLEU 是简单的指数来评估模型性能。为了更全面地衡量和比较LLM（大型语言模型），我们可以利用已有的或相同的数据集和问题组和由研究人员专门为评估性能而提出的覆盖广泛的标准问题来进行基准测试，也叫（benchmark）。其中一个方法就是Glue，和后来改进升级的SuperGlue。我们今天要介绍的是SuperGlue。

SuperGlue 是 General Language Understanding Evaluation的一个简称，旨在提供一个单一数字指标，来量化语言模型在不同类型理解任务中的表现。

2. SuperGlue （General Language Understanding Evaluation）

整章来自对参考文献的翻译， superGlue：LLM metric，先进行机器翻译，然后人工优化。懂英语的可以参照原文阅读。

最早提出的GLUE基准组合里有各种子问题群，用来计算模型在各种指标范围内的表现，从所有这些子问题群得出最终得分，然后取平均值。要留意的是，GLUE和SuperGLUE基准都基于相同的原理。在本博客中，我们主要关注SuperGLUE，因为它具有更复杂的特点和更广泛的被认识度。

2.1 SuperGLUE 基于GLUE

对比GLUE，我们看到SuperGLUE通过以下方式增强了GLUE基准测试：

更难和更复杂的任务：SuperGLUE测试中仅保留了GLUE测试中的2项，总共有9项。其余测试问题来自公开提案，并根据难度进行选择。
更多样化的问题格式：除了句子和分类问题外，SuperGLUE还包括代词理解和问答任务。代词理解/指代消解（Coreference Resolution，就是他，她，它指代谁）是自然语言处理（NLP）中的一个任务，旨在将文本中指向同一实体的不同表述聚合到同一个簇中。在文本中，经常会出现对同一实体的多种不同表述，例如，“陈奕迅，英文名Eason Chan，1974年7月出生于香港。他是当今华语乐坛的当红歌手。”这里的“陈奕迅”、“Eason Chan”和“他”都指向同一个实体“香港歌手陈奕迅”。代词理解/指代消解的目标就是识别文本中指向同一实体的不同表述。这个过程可以简化为判断一个表述是否指向另一个表述的过程，其中照应语（Anaphor）是指出的表述，先行语（Antecedent）是指入的表述。共指消解任务通常包括指代识别（mention detection）和代词理解/指代消解（coreference resolution）两个步骤。代词识别阶段旨在找出句子中所有可能是指代的词，而代词理解/指代消解阶段则是将这些找到的代词聚合到同一实体上。
全面用人的回答来做参考答案：所有子问题都包括用人的回答来做参考比较。
改进的代码支持：SuperGLUE附带了一个模块化包，使研究人员可以轻松提交到排行榜。
优化使用评估：SuperGLUE排行榜在公平化、信息化和问题提出者的信任度进行了改进。

SuperGLUE中的任务都是会说英语的大学生能够解决的，但超越了当前（2019年末）语言模型的认知水平。这些问题排除了业务领域就是行业领域知识，这意味着模型仅在通用语言理解方面进行测试，而不是某一专业领域。因为我们的大模型是通用型的，不是专一领域的。

2.2 SuperGLUE 子问题和评估方法

下面，我们列出SuperGlue的问题或任务种类，以及它们的评估指标。SuperGLUE中包含以下子问题或任务：

布尔问题：就是是非对错问题。布尔问题是一个问答任务。它包含来自维基百科文章的简短段落以及关于模型的是/否问题。评估指标通过准确性/Accuracy进行评估。
重句库：重句库包含有短文本，短文本有重句。该任务是确定模型对重句的理解。数据来自各种来源，如《华尔街日报》、英国国家语料库和Switchboard。鉴于数据来源有多有少，评估指标采用准确性/Accuracy和未加权调和平均值F1的分数来评估。
因果选择问题（Choice of Plausible Alternatives：COPA）：COPA是一个因果推理任务。系统会呈现一句话，模型必须从两个选项中辨别原因或结果。问题都是精心设计的，来自博客文章和摄影百科全书。评估指标为准确性/Accuracy。
段落阅读理解（Multi-Sentence Reading Comprehension：MultiRC）：段落理解是一个涉及上下文段落、相关问题和多项选择的多重答案的问答任务。系统必须将答案分类为真或假。评估指标包括所有答案选项上的F1分数以及完全答对多项选择的多重答案来评估。
带有常识推理的阅读理解问题：ReCoRD：ReCoRD是一个涉及新闻文章和带有填空问题的多项选择问答问题。系统必须从提供的选项中选择代替空格中的最佳选项。评估指标涉及计算最大标记级F1分数和全部正确的选项来评估。
两个文本是否互相映射的问题 RTE（Recognizing Textual Entailment，这里的映射是指假如A语句和B语句是一致的，蕴含关系，我们就说是映射的，也可以理解为从A语句，可以推断出B语句。比如 A语句，湖面很平，B语句，湖水流速很小。湖面很平可以推断出湖水的流速很小。所以是A语句蕴含B语句的意思或者说A语句可以推断出B语句，所以是映射关系。）：RTE问题集来自关于上下文年度竞赛。从几轮竞赛问题中选择一些两次分类的问题：有两个文本是互相映射的问题的和没有映射的关系，互相独立的问题。用准确性/Accuracy来评估。
上下文中单词多义识别WiC（Word in Context）：WiC是一个涉及多义词的问题。该问题是确定同样单词在两个句子中是否具有相同意义。使用的评估指标是准确性/Accuracy。
Winograd Schema挑战：WSC是一个代词理解问题，需要从句子中名词短语列表中识别代词正确指代物。该任务需要运用常识推理，代词理解/指代消解（Coreference Resolution）代词理解是自然语言处理（NLP）中的一个任务，旨在将文本中指向同一实体的不同表述聚合到同一个簇中。在文本中，经常会出现对同一实体的多种不同表述，例如，“陈奕迅，英文名Eason Chan，1974年7月出生于香港。他是当今华语乐坛的当红歌手。”这里的“陈奕迅”、“Eason Chan”和“他”都指向同一个实体“香港歌手陈奕迅”。代词理解/指代消解的目标就是识别文本中指向同一实体的不同表述。这个过程可以简化为判断一个表述是否指向另一个表述的过程，其中照应语（Anaphor）是指出的表述，先行语（Antecedent）是指入的表述。共指消解任务通常包括指代识别（mention detection）和代词理解/指代消解（coreference resolution）两个步骤。指代识别阶段旨在找出句子中所有可能是指代的词，而代词理解/指代消解阶段则是将这些找到的代词聚合到同一实体上。用准确性/accuracy进行评估。

2.3 附加分析模型

除了八个子问题或任务外，还有范围更广泛的问题来内分析模型另外两个指标。

广覆盖判别：这包括专家的判别数据集，用于自动测试模型对各种语言、常识或人之常情和自然知识的理解。该问题群中的每个样本由一对标记有三向包含关系（映射、中性或矛盾）的句子组成。这些句子之间的关系进一步用标签标记，以识别定义它们连接的语言现象。在SuperGLUE中，矛盾和中性标签被合并为一个“非映射”标签。需要使用用于文本映射/文本蕴涵识别（RTE）任务的模型对此数据集进行预测以进行提交。为了衡量人类表现，收集了非专家注释。估计的人输出答案的准确率为88%，马修斯相关系数（MCC）为0.77。
分析模型中的性别偏见：这个分析工具可以检测机器学习模型中的社会偏见。Winogender是一个诊断数据集，用于衡量代词理解系统中的性别偏见。Winogender中的每个样本包括一个带有男性或女性代词的前提句和一个提供代词可能先行词的假设。Winogender上的表现使用准确性和性别平等分数进行评估：预测相同最小对的百分比。通过猜测所有示例都属于相同类别，可以轻松获得完美的性别平等分数；因此，性别平等分数高只有在与高准确性配对时才具有重要意义。尽管存在一些限制，比如它不能覆盖所有形式的社会偏见或性别偏见，但Winogender提供了对随着模型表现而演变的一种社会偏见的理解。人自己的回答问题估计准确率为99.7%，性别平等分数为0.99。

最终SuperGLUE基准得分是通过所有任务之间的简单平均值计算得出。

至此，翻译部分结束，大家如果有不明白的地方，可以参考原文。