方法:提出federated shapley value:①保留了规范SV的理想特性②可以在不产生额外通信成本的情况下进行计算③能够捕获参与顺序对数据值的影响
目的:
为了公平的评价数据源,补偿数据所有者对培训过程的贡献。
结论:
证明了有效性
为了公平的评价数据源,补偿数据所有者对培训过程的贡献。——>①Shapley Value要全面评估数据源的每个子集上的模型性能,通信成本高昂。②规范的SV在训练过程中忽视了数据源的顺序,与联邦学习顺序性质相冲突。——>提出federated shapley value:①保留了规范SV的理想特性②可以在不产生额外通信成本的情况下进行计算③能够捕获参与顺序对数据值的影响——>证明了有效性
SV确保:
①模型的所有收益分布在数据源之间
②根据数据所有者对学习过程的实际贡献,分配给数据所有者的值
③当多次使用时,数据的值会累加
FSV用于评估分散的顺序数据:
①可以从每次训练迭代的局部模型更新中确定,不会产生额外的通信成本
②可以捕捉参与顺序对数据值的影响,因为它检查了学习过程中每个玩家子集按照实际参与顺序所带来的性能提升
③保留了规范SV所需要的特性
提出了一种有效的蒙特卡罗(Monte Carlo)方法计算FSV
进行了噪声标签检测、敌对参与者检测、不同基准数据集上的数据汇总
相关工作:
基于查询的定价,将价格附加到用户发起的查询上
基于数据属性的定价,使用公共价格登记,根据数据年龄和可信度等参数构建价格模型
基于拍卖的定价,即基于拍卖动态设定价格
——>无法适应数据作为一种商品的独特属性(例如:数据源的值取决于下游学习任务和用于解决任务的其他数据源)
标准SV的两个重要假设:
①在每个数据点组合上的训练性能是可测量的
②性能不依赖于训练数据的顺序
——>对于集中学习来说,这两个假设是合理的,因为协调器可以访问整个数据,而且在用于培训之前,数据经常被打乱。但是对联邦设置不再有效。
关于定价数据的两个线程:
①在不同参与者之间的数据质量、通信带宽和计算能力差异的情况下,激励参与的机制设计。
②如何测量数据质量,并根据数据质量共享联邦模型产生的利润