大模型评测方法(六)

前面基本把整个基准评测体系讲完了。有了评测体系,可以按照步骤一步步去执行。不过在实际执行过程中还有许多细节需要注意,同时还有一些挑战需要我们去应对。这里简单做一下介绍,这样对大模型评测能有更进一步的认识。

评测执行需要注意的细节

评测细节中有一些需要满足的基本要求,另外还有一些需要我们根据实际情况要做的思考判断。部分注意事项在前面有涉及,这里补充部分内容。

基本要求

  • 小样本测试: 在低资源环境下测试模型表现,评估其泛化能力。

  • 时间敏感性:注意模型数据可能随时间变得过时的问题,定期更新数据集以保持模型的时效性。

  • 多维度评估: 结合多个指标(如准确性、鲁棒性、公平性)进行全面评估。

  • 随机种子: 设置固定的随机种子,确保实验可复现。

  • 模型初始化: 使用相同的初始化参数,避免随机初始化导致结果波动。

  • 消融实验: 在评估大模型性能时,通过移除某些模块或特征,评估其对性能的影响。

场景思考

1.数据方面

  • 确保测试数据代表实际应用场景数据分布:例如自然语言处理模型用于多领域文本处理,测试数据应涵盖新闻、学术论文、社交媒体等多种文本类型。
  • 考虑数据更新机制以应对新变化:如评测语言模型时,加入含新网络热词的文本测试对新兴词汇的处理能力。
  • 确定合适数据量:平衡数据量对评测结果可靠性的影响与计算资源、时间成本。
  • 采用合适采样方法:如分层抽样确保每个类别在样本中有适当比例,避免数据偏差。
  • 保证标注数据一致性:明确标注标准,避免不同标注人员对相同数据标注结果差异大,如情感分析任务明确情感类别定义。
  • 检查标注数据准确性:采用多人标注取多数或专家抽检方式,如医疗文本分类任务请专业医生检查标注。

2.评测指标方面

  • 依据评测目的和模型类型选合适指标组合:生成式模型除准确性指标,还考虑生成内容的流畅性、多样性和相关性等质量指标。
  • 明确指标计算方法和条件:如计算召回率时明确定义正例、负例及边界情况处理方式,目标检测中依据规则确定检测框是否正确检测。
  • 了解复杂指标参数设置影响:如 BLEU 分数计算中 n - gram 选择和权重设置对机器翻译评测结果的影响。

3.模型执行方面

  • 保证模型正确加载和初始化:检查模型权重文件格式与加载代码兼容性,注意初始化参数默认设置对模型行为的影响。
  • 确保模型推理过程稳定:监控硬件资源使用情况,避免因硬件(如 GPU 内存不足)或软件(如内存泄漏)问题导致推理中断或异常。

评测应对的挑战

大模型评测是一个时间较长的复杂系统工作,虽然有了评测体系帮助我们快速理清思路,建立流程。但是还存在一些挑战需要应对。

1. 建立规范化的评测体系

业界对于大模型应测哪些内容、如何测、使用哪些评测集并没有统一的规范,这容易导致大模型评测榜单结果存在差异,很难精确对比大模型能力。例如,在 2023 年底,谷歌发布 Gemini 大模型,并表示在 MMLU 上的得分率高于 GPT4。但通过分析谷歌发布的技术报告《Gemini: AFamilyofHighlyCapable Multimodal Models》,Gemini Ultra 采用“CoT@32”(使用了思维链提示技巧,尝试 32 次并从中选择最好结果)的测试方法,这与 GPT4采用的“Few-Shots”明显不同,因此评测结果的公正性受到质疑。

2. 构建面向产业应用的基准

由于行业需求经常高度定制和专业化,仅测试大模型的通用能力无法充分评估模型在特定行业中的应用效果。当前一些行业仍然缺乏公开的高质量评测数据集,这加大了对大模型在实际场景中进行全面评测的难度。

4. 评测结果与用户体验的差异

当前大模型的评测大多对通用知识能力进行考察,对用户的实际使用体验关注度不够,这容易导致用户实际反馈与模型测试排名并不致,如 Open LLM Leaderboard 和 Chatbot Arena 的评测结果在大模型的排名上有明显的差异。

5. 测试数据集的“污染”问题

据美国佐治亚理工大学的论文《Investigating Data Contamination in Modern Benchmarks for Large Language Models》,当前大模型的测试数据容易被包含在训练数据中进行训练,造成数据“污染”问题。当前需要研究数据“污染”的检测手段,降低大模型“刷榜对评测结果的公正性和可信度产生的影响。

6.数据格式问题

评测数据题目的具体格式对输出结果会产生一定影响,因此单次评测的结果一定存在偏差,对模型总体能力的推论存在以偏概全的风险。如何给出让被评测大模型都表现较好的数据格式,是需要在使用数据集时去思考的问题。

大模型评测除了前面提到的构建评测体系,注意执行细节,应对评测挑战之外,还有如如何降低评测成本,如何建立完整的自动化评测体系,如何应对多模态大模型评测,对未来的通用型人工智能如何全面评估尤其是安全性等等更多要面对的挑战。希望借助评测体系,我们能更深刻的理解和使用AI。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值