最新大模型对比评估综述11.08
绪论
有一个研究方向是通过经验评估 LLM 在多大程度上符合人类的偏好和价值观
分类和路线图
知识与能力评估
答题、知识完成、推理和工具学习
回答问题方面
纯粹针对LLM问题解答能力的数据集和模型并不多见。大多数数据集都是为评估 LLM 的其他能力而策划的。作者认为,如果单纯用来评价LLM答题能力的话,数据集必须来源广泛,最好涵盖所有领域,而不是只针对某些领域,问题也不需要专业性非常强的问题,而是通用的问题。这些数据集包括SQuAD,NarrativeQA,HotpotQA,CoQA。
知识完成
知识源提供了主题-相关-对象三元组,其中包括事实知识和常识知识。因此,这些三元组可以转换成掐头去尾的语句,让语言模型填补缺失的标记。这部分可以用到的数据集:LAMA (Petroni et al., 2019) 例如,给定以下三元组:
- 主题:考研经验分享
- 相关信息:制定合理的学习计划、熟悉考试大纲和题型、建立良好的学习习惯
- 对象:备考考研的同学们
可以将这些信息转换成掐头去尾的语句,然后使用语言模型来填充缺失的标记。例如:
“备考考研的同学们可以在考研经验分享中获得一些建议,其中包括制定合理的学习计划、熟悉考试大纲和题型以及建立良好的学习习惯。”
KoLA (Yu et al., 2023)这个数据集用于知识记忆任务,该任务将知识三元组重构为特定关系的模板句,以预测后面的内容(知识)。它使用 Wikidata5M (是维基百科的一个数据集)来探究真实的答案,并通过 EM (精确匹配指标,标准是字符级别的一致性,要求比较严格)和 F1 指标(精确率(Precision)和召回率(Recall)的调和平均值)来评估结果。研究进一步探讨了知识实体的频率是否会影响评估结果。
以下是一个示例的知识记忆任务:
提示:中国的四大发明是什么?
回答:中国的四大发明是指造纸术、印刷术、火药和指南针。
在这个任务中,通过提示“中国的四大发明是什么?”,语言模型需要根据已有的知识回答,并列出造纸术、印刷术、火药和指南针这四个发明。
WikiFact (Goodrich et al., 2019),用于评估生成文本的事实准确性。它以关系元组(主题、关系、对象)的形式定义了一个数据集。该数据集基于英文维基百科和维基数据知识库创建。
推理
-
常识推理
在开发能够进行情景推测和生成类人语言的 NLP 系统中发挥着关键作用。这些数据集通过准确率和 F1 等指标,以多项选择题的形式考察模型获取常识性知识和利用常识性知识进行推理的能力。
-
逻辑推理
自然语言推理任务是一项基本任务,这项任务要求模型将一对句子作为输入,并将它们的关系标签分为必然、矛盾和中性。
多选阅读理解数据集,给定一个段落和一个问题,要求模型从候选答案列表中选择最合适的答案。这个数据集是由来自标准化考试(如法学院入学考试、研究生管理入学考试和中国国家公务员考试)的多选逻辑问题组成的。这种来源方法保证了这些数据集中试题的内在难度和质量。在这项任务中,通常使用准确率和 F1 分数作为评估指标。
文本生成数据集。其中输入和输出均为文本字符串,这是一个侧重于使用命题逻辑和一阶逻辑子集进行推理的数据集。还没有人对 LLM 在该数据集上的性能进行过评估,这为未来的研究提供了一个方向。
-
多跳推理
多跳推理是指将多个信息或事实连接起来并进行推理,从而得出答案或结论的能力,它涉及穿越事实或知识链,以进行更复杂的推理或回答仅通过查看单个信息无法回答的问题,通常通过测量生成答案与地面实况答案之间的 EM 和 F1 等标准评估指标进行评估
ChatGPT在多跳推理上的性能比较差,不过GPT-4 从 2023 年 3 月到 2023 年 6 月,在多跳推理上的精确匹配率大幅上升
-
数学推理。
数学推理评估数据集由问题组成,并以相应的正确答案作为标签,衡量标准一般是准确率。这些数据集大致可分为两类。第一类是综合考试的特点,涵盖多个科目都包含小学、初中和高中数学试题。例如越南的研究人员开发了越南高中毕业考试数据集。第二类强调数学测试集的命题,包括 7 种类型的问题: 前代数、代数、数论、计数与概率、几何、中级代数和微积分,这些数学问题来自美国高中数学竞赛,可以深刻评估 LLM。在以往的评估过程中发现,随着测试题年级的增加,所有模型的性能都有所下降,即使是 GPT-4,在检索相关数学概念并进行适当运算时也会遇到困难。
工具学习
工具学习指的是使人工智能能够操纵工具的基础模型,例如操纵搜索引擎,模型操纵工具的能力可进一步分为两类:一类是通过使用工具来增强或扩展模型能力的工具增强学习(Mialon 等人,2023 年),另一类是以掌握某种工具或技术为目标的工具导向学习,后者关注的是开发能够控制工具并代替人类做出连续决策的模型。评估是否能够实现,即模型是否能够通过理解这些工具而成功执行这些工具。评估完成情况,即在确定模型可以完成任务后,进一步评估模型的深层能力。这包括评估最终答案是否正确、生成程序的质量以及人类专家对模型操作过程的偏好。
一致性评估
伦理考虑、道德影响、偏见检测、毒性评估和真实性评估。
安全评估
伦理考虑、道德影响、偏见检测、毒性评估和真实性评估。
专业化评估
扩展到不同的专业领域,生物学、教育学、法学、计算机科学和金融学,评估它们在面对特定领域的挑战和错综复杂问题时的能力和局限性。
计算机科学
在计算机科学领域,LLM 主要的应用是代码生成,检测语法错误,和写注释。在写注释这一领域,LLM表现的很好,超过了大部分计算机专业的学生。
评估组织
要解决的问题
- LLM有哪些能力
- 部署 LLM 时必须考虑哪些因素
- LLM 在哪些领域有实际应用
- LLM 在这些不同领域的表现如何
专业的学生。
评估组织
要解决的问题
- LLM有哪些能力
- 部署 LLM 时必须考虑哪些因素
- LLM 在哪些领域有实际应用
- LLM 在这些不同领域的表现如何