为什么需要评测 普通用户:了解模型的特色能力和实际效果开发者:监控能力变化,指导优化模型生产管理机构:减少大模型带来的社会风险产业界:找出最适合产业应用的模型,赋能真实场景 如何评测 主观评测客观评测prompt工程 OpenCompass OpenCompass能力框架 OpenCompass开源评测平台架构 OpenCompass评测流水线设计 大模型评测挑战 缺少高质量中文评测集难以准确提取答案能力维度不足测试集混入训练集测试标准各异人工测试成本高昂