书生大模型实战营第六课笔记

OpenCompass 大模型评测

模型评估可以基于不同的类别进行。针对基座模型和对话模型的不同指令格式能力,需制定相应的测试方案。对基座模型而言,评估时可以在问题提示中加入额外的指令。而对话模型的评估,则可以通过模拟人类交谈的方式进行。

评估方法可分为客观评估和主观评估。客观评估涵盖了问答题、选择题、判断题等形式。尽管模型的回答方式多样,只要正确提取关键词即视为正确答案。通过统计所有题目的客观正确率,可以对模型进行评估。

对于那些不能仅通过客观评估方法评估的题目,需要采用主观评估方法。虽然人工评价可以解决主观评估的需求,但这在实践中并不总是可行的。一种替代方案是使用自动化方法,即利用模型来评估其他模型的性能。在这方面,GBT4作为当前技术最先进的模型,可以承担起替代人工评价的角色。此外,InternLM2在主观能力方面取得了显著进步,通过主观评论的方式,它能够进行有效的测试和自我提升。

通过prompt工程技术测试模型对prompt的敏感度,可以通过构建多种表达方式来提出同一个问题。理想情况下,模型在面对不同表达方式的同一问题时,应给出一致的答案。如果模型在改变提问方式后给出了错误答案,这表明模型对prompt非常敏感,且鲁棒性较差。这种基于prompt工程的评估方法,旨在深入了解和测试模型的理解能力和适应性。

斯坦福大学推出的HELM和FlagEval评测框架,以及伯克利大学的MMLU(多模态多语言理解)评测框架,主要用于进行客观评测。同时,Hugging Face提供的官方排行榜和openLLM Leaderboard则为模型性能的比较提供了一个平台。国内的智源研究院等也开发了评测框架。这些评测工具支持客观评测、主观评测,并能够处理中英文等多种语言的题目,从而为人工智能领域的研究和开发提供了广泛的评估手段。

评估一个模型通常包括以下几个阶段:配置->推理->评估->可视化

配置:设定评估流程,选择模型和数据集,确定评估方法和显示结果的格式。

推理与评估:OpenCompass 对模型进行并行推理,评估输出与标准答案的匹配度,多任务并行提高效率,但资源有限时可能减慢评测速度。

可视化:评估结果整理成表格,保存为CSV和TXT文件。

大型模型的评测体系虽然逐渐成熟,但依然存在一些挑战。特别是测试集数据与训练集混合可能引起的数据污染问题,这会导致模型的准确率人为地提高,从而影响评测结果的真实性。为了应对这一问题,已经开发了专门的工具来检测和评估数据污染的程度。然而,数据被污染的模型在特定数据集上的表现结果的可信度仍然较低,这强调了在模型评估过程中考虑数据质量和完整性的重要性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值