【论文笔记】Data Shapley: Equitable Valuation of Data for Machine Learning

疯狂的小猴子h

已于 2022-06-26 10:43:30 修改

阅读量1.7k

点赞数 2

文章标签：机器学习人工智能深度学习

于 2022-06-23 18:19:25 首次发布

本文链接：https://blog.csdn.net/lasetd/article/details/125429103

版权

论文提出Data Shapley方法，用以公平地量化单个数据点对机器学习任务的贡献。它克服了LOO方法的局限性，能识别异常值和损坏数据，指导获取有价值的新数据。实验表明，Data Shapley在检测错误标签和衡量数据质量方面表现出优势，但可能存在的问题包括其对其他攻击的有效性和与遗忘学习系统的结合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Data Shapley: Equitable Valuation of Data for Machine Learning（Data Shapley：机器学习数据的公平估值）

本篇论文的贡献
创新性
Data Shapley算法步骤
评估指标和实验结果
可能存在的问题

本篇论文的贡献

提供了在机器学习中公平地评估数据的一个公式，利用博弈论提出了数据的Shapley值来量化单个数据点对学习任务的贡献。Data Shapley唯一地满足公平估值的三个自然属性。此外，实证研究表明，数据Shapley还有几个额外的实用功能：1）它与通常的LOO分数相比，提供了更多的观察每个数据点的重要性的见解；2）识别异常值和损坏数据；3）它可以告诉我们如何获取未来的数据来改进预测器。

创新性

通用的评估数据性能的方法是leave-one-out（LOO）test：比较在整个数据集上训练的预测器性能与在减去一点的整个数据集上训练的预测器性能之间的差异。其局限性在于假设每个训练点在训练集中都有两个完全相同的副本。从数据集中移走一个点不会改变预测器，因为其副本依然还在。因此，LOO方法会给每个训练数据点赋值为0，不管实际预测器的性能如何。
Data Shapley则在考虑每个点的对模型的贡献时，不是整个训练集，而是它的一个随机子集。

Data Shapley算法步骤

1.数据ｉ的 Shapley值的定义 $\phi {i}$ :
在这里插入图片描述
V（S）表示在数据集S上评估训练的预测器的性能的指标（例如在特定测试集上的准确率）；Ｃ是任意常量。
2.对Data Shapley进行估算：
计算Shapley需要计算所有可能的边界贡献，其在训练数据大小上成指数级增长。另外，对每个S⊆D，计算V(S)涉及到使用学习算法A在S上学习一个预测器。因此，对实际的数据集计算精确的Shapley值是困

最低0.47元/天解锁文章