书生大模型实战营第六课笔记

Zhihao_z

已于 2024-02-21 20:25:00 修改

阅读量205

点赞数 1

文章标签：笔记

于 2024-02-21 17:23:53 首次发布

本文链接：https://blog.csdn.net/m0_46870112/article/details/136216791

版权

OpenCompass 大模型评测

模型评估可以基于不同的类别进行。针对基座模型和对话模型的不同指令格式能力，需制定相应的测试方案。对基座模型而言，评估时可以在问题提示中加入额外的指令。而对话模型的评估，则可以通过模拟人类交谈的方式进行。

评估方法可分为客观评估和主观评估。客观评估涵盖了问答题、选择题、判断题等形式。尽管模型的回答方式多样，只要正确提取关键词即视为正确答案。通过统计所有题目的客观正确率，可以对模型进行评估。

对于那些不能仅通过客观评估方法评估的题目，需要采用主观评估方法。虽然人工评价可以解决主观评估的需求，但这在实践中并不总是可行的。一种替代方案是使用自动化方法，即利用模型来评估其他模型的性能。在这方面，GBT4作为当前技术最先进的模型，可以承担起替代人工评价的角色。此外，InternLM2在主观能力方面取得了显著进步，通过主观评论的方式，它能够进行有效的测试和自我提升。

通过prompt工程技术测试模型对prompt的敏感度，可以通过构建多种表达方式来提出同一个问题。理想情况下，模型在面对不同表达方式的同一问题时，应给出一致的答案。如果模型在改变提问方式后给出了错误答案，这表明模型对prompt非常敏感，且鲁棒性较差。这种基于prompt工程的评估方法，旨在深入了解和测试模型的理解能力和适应性。

斯坦福大学推出的HELM和FlagEval评测框架，以及伯克利大学的MMLU（多模态多语言理解）评测框架，主要用于进行客观评测。同时，Hugging Face提供的官方排行榜和openLLM Leaderboard则为模型性能的比较提供了一个平台。国内的智源研究院等也开发了评测框架。这些评测工具支持客观评测、主观评测，并能够处理中英文等多种语言的题目，从而为人工智能领域的研究和开发提供了广泛的评估手段。

评估一个模型通常包括以下几个阶段：配置->推理->评估->可视化

配置：设定评估流程，选择模型和数据集，确定评估方法和显示结果的格式。

推理与评估：OpenCompass 对模型进行并行推理，评估输出与标准答案的匹配度，多任务并行提高效率，但资源有限时可能减慢评测速度。

可视化：评估结果整理成表格，保存为CSV和TXT文件。

大型模型的评测体系虽然逐渐成熟，但依然存在一些挑战。特别是测试集数据与训练集混合可能引起的数据污染问题，这会导致模型的准确率人为地提高，从而影响评测结果的真实性。为了应对这一问题，已经开发了专门的工具来检测和评估数据污染的程度。然而，数据被污染的模型在特定数据集上的表现结果的可信度仍然较低，这强调了在模型评估过程中考虑数据质量和完整性的重要性。