评价科学(The science of evaluation)的核心问题是:“任何评价结果是否具有真值?”评价工程旨在解决如何在满足利益相关者评价需求的同时,最小化评价成本。为了解决上述挑战,我们提出了一个通用的评价框架,包括跨学科适用(即便可能不是所有学科)的概念、术语、理论和方法。
一、五大评价公理 (evaluation axioms)
1. 综合评价指标本质公理 (The Axiom of the Essence of Composite Evaluation Metrics):综合评价指标的本质要么具有内在的物理意义,要么完全由价值函数 (value function) 决定。
2. 评价结果真值公理 (The Axiom of True Evaluation Outcomes):当一个明确定义的评价条件(Evaluation condition, EC) 施加于一个明确定义的对象时,其评价结果,包括量和综合评价指标,具有真值。
3. 评价可溯源性公理 (The Axiom of Evaluation Traceability):对于同一对象,评价结果的差异可归因于评价条件的差异,从而建立评价的可溯源性。
4. 评价结果可比较性公理 (The Axiom of Comparable Evaluation Outcomes):当每个明确定义的对象都被施加等价的评价条件 (Equivalent evaluation condition, ECC) 时,其评价结果是可比较的。
5. 评价结果一致性公理 (The Axiom of Consistent Evaluation Outcomes):当对一个明确定义的对象施加评价条件样本 (samples) 时,其评价结果一致地趋近于施加评价条件总体(Population) 获得的评价结果真值 (True quantity)。
二、 评价科学的四个基本问题:
(1)如何确保评价模型的传递性(transitivity)是在复杂场景下构建评价模型的最基本问题之一。这个问题涉及到在真实世界评价系统基础上构建完美评价模型,并进一步简化以得到实用评价模型。
(2)如何控制评价结果在接近真值的某个范围内(controlled discrepancies)同时降低评价成本是评价过程中最重要的工程问题,即在不超过评价结果差异阈值(discrepancy threshold of the evaluation outcomes)的条件下最小化评价成本。
(3)确保评价的可溯源性 (Evaluation traceability) 是一个需要应用科学和工程原理的多方面的问题。它涉及将评价结果的任何差异归因于评价条件的差异,从而建立清晰透明的可溯源性。
(4)如何在各学科的评价标准之间建立连接和关联,是评价学的大统一理论(the grand unified theory of evaluatology),这使得对评价相关问题进行全面探讨成为可能。评价标准是任何评价模型中的基础支柱。通过建立不同学科之间评价标准的联系,我们有可能构建一个覆盖所有领域评价问题的综合框架。
三、 基准学: 评价工程学 (Benchmarkology: the engineering of evaluation)
1. 利益相关者的评价需求
2. EC 配置和机制
3. 指标(metrics) 和参考(Reference)
四、 评价与计量、测试的差异
计量学关乎测量及应用,测试用于验证个体或系统行为及运行环境正确性。计量和测试是评价组成部分,评价还包括定义和施加评价条件等步骤,计量结果客观,测试结果有正负面之分,评价结果具主观性。
五、对现有评价和评价基准实践的反思
现有评价实践存在诸多局限,概念和术语缺乏共识、评价本质认识不清、理论方法领域特定、忽视利益相关者需求、缺乏等价评价条件定义、未讨论复杂评估机制策略等。以 ImageNet 为例,AI 评价基准存在定义追溯、数据分布假设、统计推断置信度不明等问题。评价学的提出,有望改善现状,为各领域评价提供通用框架,促进学科间有效沟通合作,提升评价准确性和可靠性,助力科学研究、工程实践及决策制定等。
#评价工程学# #评价学# #基准学# #科学研究# #学术界的挑战#