016 A Principled Approach to Data Valuation for Federated Learning(评价 federated shapley value)

研究提出了Federated Shapley Value (FSV),旨在公平评估数据源在联邦学习中的贡献,同时降低通信成本。FSV考虑了数据参与顺序的影响,解决了标准Shapley Value在联邦环境中忽视顺序的问题。通过有效的蒙特卡罗方法计算FSV,它能捕捉数据在分散和有序环境中的价值。此外,该方法还应用于噪声标签检测、敌对参与者检测和数据汇总,为数据定价提供更公正的框架。
摘要由CSDN通过智能技术生成
方法:提出federated shapley value:①保留了规范SV的理想特性②可以在不产生额外通信成本的情况下进行计算③能够捕获参与顺序对数据值的影响
目的: 为了公平的评价数据源,补偿数据所有者对培训过程的贡献。
结论: 证明了有效性

为了公平的评价数据源,补偿数据所有者对培训过程的贡献。——>①Shapley Value要全面评估数据源的每个子集上的模型性能,通信成本高昂。②规范的SV在训练过程中忽视了数据源的顺序,与联邦学习顺序性质相冲突。——>提出federated shapley value:①保留了规范SV的理想特性②可以在不产生额外通信成本的情况下进行计算③能够捕获参与顺序对数据值的影响——>证明了有效性

SV确保:
①模型的所有收益分布在数据源之间
②根据数据所有者对学习过程的实际贡献,分配给数据所有者的值
③当多次使用时,数据的值会累加
FSV用于评估分散的顺序数据:
①可以从每次训练迭代的局部模型更新中确定,不会产生额外的通信成本
②可以捕捉参与顺序对数据值的影响,因为它检查了学习过程中每个玩家子集按照实际参与顺序所带来的性能提升
③保留了规范SV所需要的特性 
提出了一种有效的蒙特卡罗(Monte Carlo)方法计算FSV
进行了噪声标签检测、敌对参与者检测、不同基准数据集上的数据汇总

相关工作:
基于查询的定价,将价格附加到用户发起的查询上
基于数据属性的定价,使用公共价格登记,根据数据年龄和可信度等参数构建价格模型
基于拍卖的定价,即基于拍卖动态设定价格
——>无法适应数据作为一种商品的独特属性(例如:数据源的值取决于下游学习任务和用于解决任务的其他数据源)
标准SV的两个重要假设:
①在每个数据点组合上的训练性能是可测量的
②性能不依赖于训练数据的顺序
——>对于集中学习来说,这两个假设是合理的,因为协调器可以访问整个数据,而且在用于培训之前,数据经常被打乱。但是对联邦设置不再有效。
关于定价数据的两个线程:
①在不同参与者之间的数据质量、通信带宽和计算能力差异的情况下,激励参与的机制设计。
②如何测量数据质量,并根据数据质量共享联邦模型产生的利润
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值