Data Shapley: Equitable Valuation of Data for Machine Learning(Data Shapley:机器学习数据的公平估值)
本篇论文的贡献
提供了在机器学习中公平地评估数据的一个公式,利用博弈论提出了数据的Shapley值来量化单个数据点对学习任务的贡献。Data Shapley唯一地满足公平估值的三个自然属性。此外,实证研究表明,数据Shapley还有几个额外的实用功能:1)它与通常的LOO分数相比,提供了更多的观察每个数据点的重要性的见解;2)识别异常值和损坏数据;3)它可以告诉我们如何获取未来的数据来改进预测器。
创新性
通用的评估数据性能的方法是leave-one-out(LOO)test:比较在整个数据集上训练的预测器性能与在减去一点的整个数据集上训练的预测器性能之间的差异。其局限性在于假设每个训练点在训练集中都有两个完全相同的副本。从数据集中移走一个点不会改变预测器,因为其副本依然还在。因此,LOO方法会给每个训练数据点赋值为0,不管实际预测器的性能如何。
Data Shapley则在考虑每个点的对模型的贡献时,不是整个训练集,而是它的一个随机子集。
Data Shapley算法步骤
1.数据i的 Shapley值的定义 ϕ i \phi {i} ϕi:
V(S)表示在数据集S上评估训练的预测器的性能的指标(例如在特定测试集上的准确率);C是任意常量。
2.对Data Shapley进行估算:
计算Shapley需要计算所有可能的边界贡献,其在训练数据大小上成指数级增长。另外,对每个S⊆D,计算V(S)涉及到使用学习算法A在S上学习一个预测器。因此,对实际的数据集计算精确的Shapley值是困