评测框架 确定了一套完整的、综合的评价体系,包括评价的维度,以及每一个维度下要评价哪些具体能力; 评价基准(benchmark) 既可以以评价模型的综合能力为目标,也可以只评价某一个方面的能力(例如:安全性、代码生成能力、上下文推理能力等等) 总结 评测框架更具工程性,侧重实现; 评价基准更具理论性和研究价值;