LLM评估标准有哪些？

最新推荐文章于 2024-08-26 18:56:03 发布

哥廷根数学学派

最新推荐文章于 2024-08-26 18:56:03 发布

阅读量530

点赞数

文章标签：人工智能数据挖掘机器学习深度学习分类

本文链接：https://blog.csdn.net/weixin_39402231/article/details/133605064

版权

文章讨论了三种LLM评估方法：人工评估依赖主观判断，自动评估使用标准化数据集，其他LLM评估如MMBench等利用模型自身进行对比。尽管各有优缺点，但尚未有完善的综合评估方法，需互补使用以全面评价LLM性能。

摘要由CSDN通过智能技术生成

为了有效衡量和优化LLM的性能和泛化能力，并揭示其优势和局限，建立合理的LLM评价基准具有重要意义。现阶段，主流的LLM评估方法可划分为3类：

1）人工评估。

基于人工的评估方法通常需要邀请大量的志愿者或相关领域专家对LLM的生成进行主观评估和打分。以专业领域知识评估为例，首先需要收集不同领域专家根据该领域专业问题给出的答案作为参考，然后根据已有知识与LLM生成的输出，主观评估LLM专业领域知识的掌握程度。此外，人工评估还可以运用于评估生成内容与人类意愿高度相关的指标，例如语义一致性、逻辑合理性和文体风格等方面。

人工评估方法依赖于人类评估者对生成内容的主观判断，可以更好地反映生成内容的质量以及LLM在不同专业领域的能力。此外，它还可以灵活适应不同的任务场景。但是，基于人工的评估方法需要耗费大量的时间、金钱和人力。因此，基于人工的评估方法不利于当前LLM研究发展的快速迭代。

2）自动评估。

自动评估方法是通过使用标准化的数据集和指标来对LLM进行自动化评估。该类评估方法所采用的综合评测基准通常涵盖主流LLM评估任务，并且可以快速对比不同LLM在相同任务下的性能差距。以下介绍两个具有代表性且在当前阶段流行的综合评估基准。

首先是由Berkeley研究者发布的MMLU评测基准。MMLU包含57个任务，涵盖了数学、历史、计算机科学和法律等领域，通过零样本和少样本设置来评估模型蕴含的知识。其次是AI2提出的ARC（AI2reasoningchallenge）评测基准。ARC包含7787个来自不同科学领域的考试问题，根据难易程度，可以划分为2590个问题组成的ARC-Challenge和5197个问题的ARCEasy。这些问题用以评估LLM在多步推理、语言匹配等多方面的高级能力。在这两个评测基准中，GPT-4取得了最好的成绩，明显超过其他LLM。

自动评估方法可以快速地对比不同LLM在相同条件下的性能差异，也可以提供一些可量化和可解释的结果。同时，区别于人工评估方法，该类方法不受主观因素影响，可重复性较强。因此，自动评估方法是3类方法中最广泛使用的一种。但是，自动评估方法也有一定的缺陷，例如机械化、忽视人类偏好、数据集质量与覆盖度无法保证等。

3）其他LLM评估。

除了人工评估和自动评估，利用LLM本身作为评估器，来比较不同LLM的输出，并给出相对的优劣判断也是一种思路。该类方法通常设定一系列用来评估LLM综合性能的开放式问题集合，用以得到LLM的输出，并且采用现有先进的LLM作为评估者，对LLM的输出进行标注输出对比或打分以评估LLM的综合性能。

介绍3种最新的基于其他LLM的评估方法MMBench、AlpacaEval和MT-Bench。MMBench是上海人工智能实验室提出的一种客观评估大型视觉语言模型不同能力的评估基准。它从模型的感知和推理能力出发，构建了3级能力维度，并采用一种循环评估策略CircularEval，以提高评估过程的稳定性。对于某一具体的评估题目，首先，从多模态大模型的输出中提取与选项匹配的内容。若匹配失败，则用ChatGPT预测和选项，生成选项标签。如果仍然无法提取选择，则用随机选择来标记预测，并添加评论信息。最后使用ChatGPT作为自动评估器，评估多模态大模型的性能。Alpa‐caEval由斯坦福大学的研究人员发布，是一种基于AlpacaFarm数据集来测试LLM遵循一般用户指令的能力的评估方法。具体来说，研究人员以强大的LLM（如GPT-4、Claude或ChatGPT）为自动评估器，以GPT-3.5为基准，将目标模型与GPT-3.5的回复进行比较，计算获胜率。而MT-Bench是一种基于多轮对话来评估LLM聊天机器人能力和用户偏好的评估方法。它是一个由80个多轮问题组成的基准测试集，旨在评估聊天机器人的对话和指令跟随能力。同样使用强大的LLM（如GPT-4、Claude或ChatGPT）作为评估器，将不同的聊天机器人的回复进行比较，并给出优劣判断。基于其他LLM评估方法具有快速、廉价、可复现且与人类偏好高度一致的特点，可以作为开发和测试LLM的有用工具。但是，目前该类方法的发展时间较短，技术不完善，仍具有较多的局限性，例如无法用于评估LLM的高阶能力、评估结果存在偏差以及缺乏安全评估等。

在上述3种方法中，人工评估方法最符合人类意愿，数据集自动评估方法应用最广泛，而利用其他LLM评估方法具有最高的新颖性和可拓展性。但是，现阶段尚未存在完善的LLM综合能力评估方法，因此，现阶段应该多种方法互补使用以全面地评估LLM的性能和质量。

学术问题付费咨询及相关探讨
博士，担任《Mechanical System and Signal Processing》审稿专家，担任
《中国电机工程学报》优秀审稿专家，《控制与决策》，《系统工程与电子技术》等EI期刊审稿专家，担任《计算机科学》，《电子器件》，《现代制造过程》，《船舶工程》，《轴承》，《工矿自动化》，《重庆理工大学学报》，《噪声与振动控制》，《机械传动》，《机械强度》，《机械科学与技术》，《机床与液压》，《声学技术》，《应用声学》等中文核心审稿专家。
擅长领域：现代信号处理，机器学习，深度学习，数字孪生，时间序列分析，设备缺陷检测、设备异常检测、设备智能故障诊断与健康管理PHM等。