【论文笔记】Data Shapley: Equitable Valuation of Data for Machine Learning

论文提出Data Shapley方法,用以公平地量化单个数据点对机器学习任务的贡献。它克服了LOO方法的局限性,能识别异常值和损坏数据,指导获取有价值的新数据。实验表明,Data Shapley在检测错误标签和衡量数据质量方面表现出优势,但可能存在的问题包括其对其他攻击的有效性和与遗忘学习系统的结合。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本篇论文的贡献

提供了在机器学习中公平地评估数据的一个公式,利用博弈论提出了数据的Shapley值来量化单个数据点对学习任务的贡献。Data Shapley唯一地满足公平估值的三个自然属性。此外,实证研究表明,数据Shapley还有几个额外的实用功能:1)它与通常的LOO分数相比,提供了更多的观察每个数据点的重要性的见解;2)识别异常值和损坏数据;3)它可以告诉我们如何获取未来的数据来改进预测器。

创新性

通用的评估数据性能的方法是leave-one-out(LOO)test:比较在整个数据集上训练的预测器性能与在减去一点的整个数据集上训练的预测器性能之间的差异。其局限性在于假设每个训练点在训练集中都有两个完全相同的副本。从数据集中移走一个点不会改变预测器,因为其副本依然还在。因此,LOO方法会给每个训练数据点赋值为0,不管实际预测器的性能如何。
Data Shapley则在考虑每个点的对模型的贡献时,不是整个训练集,而是它的一个随机子集。

Data Shapley算法步骤

1.数据i的 Shapley值的定义 ϕ i \phi {i} ϕi:
在这里插入图片描述
V(S)表示在数据集S上评估训练的预测器的性能的指标(例如在特定测试集上的准确率);C是任意常量。
2.对Data Shapley进行估算:
计算Shapley需要计算所有可能的边界贡献,其在训练数据大小上成指数级增长。另外,对每个S⊆D,计算V(S)涉及到使用学习算法A在S上学习一个预测器。因此,对实际的数据集计算精确的Shapley值是困

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值