大模型评测的原因 提供模型能力测试基准根据真实场景任务,测试大模型能力边界提供大模型优化方向指引对比不同模型的能力 大模型评测的内容 知识、推理、语言长文本情感、认知、价值观 测试大模型的方法 自动化客观评测人机交互评测基于大模型的评测