016 A Principled Approach to Data Valuation for Federated Learning（评价 federated shapley value）

联邦调查局石大分局

于 2022-06-29 09:39:43 发布

阅读量533

点赞数 1

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Uzz_yuzaizai/article/details/125514371

版权

研究提出了Federated Shapley Value (FSV)，旨在公平评估数据源在联邦学习中的贡献，同时降低通信成本。FSV考虑了数据参与顺序的影响，解决了标准Shapley Value在联邦环境中忽视顺序的问题。通过有效的蒙特卡罗方法计算FSV，它能捕捉数据在分散和有序环境中的价值。此外，该方法还应用于噪声标签检测、敌对参与者检测和数据汇总，为数据定价提供更公正的框架。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

方法：提出federated shapley value：①保留了规范SV的理想特性②可以在不产生额外通信成本的情况下进行计算③能够捕获参与顺序对数据值的影响

目的： 为了公平的评价数据源，补偿数据所有者对培训过程的贡献。

结论： 证明了有效性

为了公平的评价数据源，补偿数据所有者对培训过程的贡献。——>①Shapley Value要全面评估数据源的每个子集上的模型性能，通信成本高昂。②规范的SV在训练过程中忽视了数据源的顺序，与联邦学习顺序性质相冲突。——>提出federated shapley value：①保留了规范SV的理想特性②可以在不产生额外通信成本的情况下进行计算③能够捕获参与顺序对数据值的影响——>证明了有效性

SV确保：

①模型的所有收益分布在数据源之间

②根据数据所有者对学习过程的实际贡献，分配给数据所有者的值

③当多次使用时，数据的值会累加

FSV用于评估分散的顺序数据：

①可以从每次训练迭代的局部模型更新中确定，不会产生额外的通信成本

②可以捕捉参与顺序对数据值的影响，因为它检查了学习过程中每个玩家子集按照实际参与顺序所带来的性能提升

③保留了规范SV所需要的特性

提出了一种有效的蒙特卡罗（Monte Carlo）方法计算FSV

进行了噪声标签检测、敌对参与者检测、不同基准数据集上的数据汇总

相关工作：

基于查询的定价，将价格附加到用户发起的查询上

基于数据属性的定价，使用公共价格登记，根据数据年龄和可信度等参数构建价格模型

基于拍卖的定价，即基于拍卖动态设定价格

——>无法适应数据作为一种商品的独特属性（例如：数据源的值取决于下游学习任务和用于解决任务的其他数据源）

标准SV的两个重要假设：

①在每个数据点组合上的训练性能是可测量的

②性能不依赖于训练数据的顺序

——>对于集中学习来说，这两个假设是合理的，因为协调器可以访问整个数据，而且在用于培训之前，数据经常被打乱。但是对联邦设置不再有效。

关于定价数据的两个线程：

①在不同参与者之间的数据质量、通信带宽和计算能力差异的情况下，激励参与的机制设计。

②如何测量数据质量，并根据数据质量共享联邦模型产生的利润

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。