大模型评测方法（六）

Guzith

已于 2025-01-21 10:17:44 修改

阅读量1.9k

点赞数 55

文章标签：人工智能语言模型机器学习

于 2025-01-20 19:03:59 首次发布

本文链接：https://blog.csdn.net/Guzith/article/details/145267405

版权

前面基本把整个基准评测体系讲完了。有了评测体系，可以按照步骤一步步去执行。不过在实际执行过程中还有许多细节需要注意，同时还有一些挑战需要我们去应对。这里简单做一下介绍，这样对大模型评测能有更进一步的认识。

评测执行需要注意的细节

评测细节中有一些需要满足的基本要求，另外还有一些需要我们根据实际情况要做的思考判断。部分注意事项在前面有涉及，这里补充部分内容。

基本要求

小样本测试: 在低资源环境下测试模型表现，评估其泛化能力。
时间敏感性：注意模型数据可能随时间变得过时的问题，定期更新数据集以保持模型的时效性。
多维度评估: 结合多个指标（如准确性、鲁棒性、公平性）进行全面评估。
随机种子: 设置固定的随机种子，确保实验可复现。
模型初始化: 使用相同的初始化参数，避免随机初始化导致结果波动。
消融实验: 在评估大模型性能时，通过移除某些模块或特征，评估其对性能的影响。

场景思考

1.数据方面

确保测试数据代表实际应用场景数据分布：例如自然语言处理模型用于多领域文本处理，测试数据应涵盖新闻、学术论文、社交媒体等多种文本类型。
考虑数据更新机制以应对新变化：如评测语言模型时，加入含新网络热词的文本测试对新兴词汇的处理能力。
确定合适数据量：平衡数据量对评测结果可靠性的影响与计算资源、时间成本。
采用合适采样方法：如分层抽样确保每个类别在样本中有适当比例，避免数据偏差。
保证标注数据一致性：明确标注标准，避免不同标注人员对相同数据标注结果差异大，如情感分析任务明确情感类别定义。
检查标注数据准确性：采用多人标注取多数或专家抽检方式，如医疗文本分类任务请专业医生检查标注。

2.评测指标方面

依据评测目的和模型类型选合适指标组合：生成式模型除准确性指标，还考虑生成内容的流畅性、多样性和相关性等质量指标。
明确指标计算方法和条件：如计算召回率时明确定义正例、负例及边界情况处理方式，目标检测中依据规则确定检测框是否正确检测。
了解复杂指标参数设置影响：如 BLEU 分数计算中 n - gram 选择和权重设置对机器翻译评测结果的影响。

3.模型执行方面

保证模型正确加载和初始化：检查模型权重文件格式与加载代码兼容性，注意初始化参数默认设置对模型行为的影响。
确保模型推理过程稳定：监控硬件资源使用情况，避免因硬件（如 GPU 内存不足）或软件（如内存泄漏）问题导致推理中断或异常。

评测应对的挑战

大模型评测是一个时间较长的复杂系统工作，虽然有了评测体系帮助我们快速理清思路，建立流程。但是还存在一些挑战需要应对。

1. 建立规范化的评测体系

业界对于大模型应测哪些内容、如何测、使用哪些评测集并没有统一的规范，这容易导致大模型评测榜单结果存在差异，很难精确对比大模型能力。例如，在 2023 年底，谷歌发布 Gemini 大模型，并表示在 MMLU 上的得分率高于 GPT4。但通过分析谷歌发布的技术报告《Gemini: AFamilyofHighlyCapable Multimodal Models》,Gemini Ultra 采用“CoT@32”(使用了思维链提示技巧，尝试 32 次并从中选择最好结果)的测试方法，这与 GPT4采用的“Few-Shots”明显不同，因此评测结果的公正性受到质疑。

2. 构建面向产业应用的基准

由于行业需求经常高度定制和专业化，仅测试大模型的通用能力无法充分评估模型在特定行业中的应用效果。当前一些行业仍然缺乏公开的高质量评测数据集，这加大了对大模型在实际场景中进行全面评测的难度。

4. 评测结果与用户体验的差异

当前大模型的评测大多对通用知识能力进行考察，对用户的实际使用体验关注度不够，这容易导致用户实际反馈与模型测试排名并不致，如 Open LLM Leaderboard 和 Chatbot Arena 的评测结果在大模型的排名上有明显的差异。

5. 测试数据集的“污染”问题

据美国佐治亚理工大学的论文《Investigating Data Contamination in Modern Benchmarks for Large Language Models》，当前大模型的测试数据容易被包含在训练数据中进行训练，造成数据“污染”问题。当前需要研究数据“污染”的检测手段，降低大模型“刷榜对评测结果的公正性和可信度产生的影响。