定义
accuracy(准确性):正确的结果的比例,即真阳性或真阴性的结果的比例。
Auditor(审计员):负责检查 FML 过程的正确性和性能的用户,以验证该过程符合监管要求。
Coordinator(协调者):从不同数据所有者构建 FML 模型并提供 FML 模型对用户进行建模的用户。
Data owner(数据所有者):拥有用在联邦学习中的数据集的所有权的用户。
Data quality(数据质量):指示数据集有用性和有效性的指标。
Data set(数据集):一组由数据特征(由特征名称和值组成)、数据标签(用于(半)监督学习)和数据项标识符(ID)组成的数据项。
Encryption(加密):一种将明文转换为密文的算法,以以加密密钥作为参数提供机密性。
Feature(特征):数据项的可测量属性的子集。
Federated machine learning(联邦机器学习):联邦机器学习 (FML) 是一个框架或系统,它使多个参与者能够协作构建和使用机器学习模型,而不会泄露参与者拥有的原始和私有数据,同时实现良好的性能。
FML model(联邦机器学习模型):联邦机器学习系统的模型训练过程的结果。学习模型可用于对新数据做出某些机器学习推理任务,例如分类、识别、预测和推荐。
Lable(标签):与(半)监督学习的数据特征子集相关的公共属性。
Model user(模型用户):在各种任务中使用 FML 模型的用户。
Outcome(结果):基于新数据的FML系统推理过程的结果。
Outcome profile(结果概要):基于某个测试数据的所有代理人的结果列表。
payment scheme(支付方案):支付方案是一个函数,它决定向数据所有者转移支付,对用户建模
precision(精度):真阳性的比例加上假阳性数据。
Raw data(原始数据):原始数据是一组数据集,由数据所有者获取和维护。该数据集包含用户和数据所有者的私人信息,需要保护。原始数据也称为私有数据,以强调隐私保护的需要。
recall:真阳性和假阴性中真阳性的比例。
Testing data set(测试数据集):用于评估训练 FML 模型的性能的数据集。
Training(训练):联邦机器学习过程,其中原始数据保持私有,并用于优化 FML 模型在一些给定的机器学习任务中的性能。
Training data set(训练数据集):用于训练 FML 模型的数据集。
Transfer payment(转移支付):协调器支付或收取数据所有者和模型用户的货币支付。
User(用户):FML 中涉及的个人、实体、政党/参与者或机构。用户可以扮演协调器、数据所有者、模型用户或审计员的角色。需要注意的是,用户可以同时扮演多个角色。
Data View
样本特征重合多,id重合少:横向联邦学习(可以起到增加样本数量的效果)
样本特征重合少,id重合多:纵向联邦学习(可以起到增加样本特征的效果)
样本特征和id重合都少:联邦迁移学习
FML User View
在联邦机器学习框架中,用户可以扮演四个角色中的任何一个,即数据所有者、模型用户、协调器和审计员。用户可以同时扮演多个角色。
01Model user
联邦机器学习模型用户可以与联邦机器学习协调器建立业务关系。活动如下:
请求服务
发现服务的元数据
发现服务功能
使用联邦机器学习服务
在推断中使用FML模型并参与支付交易
02Data owner
向协调器或者其他的数据拥有者以隐私保护的方式提供源数据,并获得奖励。活动如下:
在本地收集和准备训练数据
将数据准备成本与其他方沟通
通过加密、同态加密、差分隐私、安全多方计算等来维护所提供模型的隐私
参与联邦机器学习来训练FML模型
在fml推理阶段将中间计算结果与其他方通信
询问支付和接收奖励
03Coordinator
联邦机器学习协调者启动、维护和为数据所有者和模型用户提供 FML 服务。
协调者相关的活动包括:
联邦机器学习功能开发:由算法开发、基础设施开发、服务开发等组成
计算活动:包括模型训练和测试、安全隐私保护计算管理(安全协议确定、密钥生成、数据解密)和其他必要的操作
模型管理:由模型训练和测试、模型元信息管理、模型密钥管理等组成
模型管理还包括模型推理:当一个或多个模型用户发起请求以将联邦模型应用于他们自己的数据时,这需要其他各方拥有的子模型参与FML模型结果的计算
管理活动:包括服务访问、服务能力公告和更新、服务元信息管理、参与者元信息管理等
数据管理:由元数据信息管理、发布、发现等组成
经济激励活动:包括计算数据所有者和模型用户的支付
04Auditor
联邦机器学习审计员负责检查FML过程的正确性,并验证该过程在性能和安全性要求以及监管要求方面符合系统约束。
验证FML过程中涉及的数据源的合法性
监控和簿记模型构建过程
请求协调器来解释数据管理、模型管理和经济激励策略
监督模型使用和请求用户来验证模型使用请求
验证安全和隐私程序和法规的存在和遵守
FML system view
模块根据其活动的相关性分为层,而不同层的模块可以通过跨层函数相互交互。请注意,根据不同用例的不同要求,功能模块可以包含在特定联邦机器学习框架中或省略。请注意,任何 FML 系统都可以包含一个或多个封装在参考框架的每一层的模块。
服务层 用户服务模块 参与者协调模块 数据服务模块 任务管理服务模块 | 算法层 样本对齐模块(纵向联邦学习) 特征对齐模块(横向联邦学习) 联邦特征工程模块 联邦机器学习算法模块 算法评估模块 贡献评估模块 经济激励计算模块 |
运算符层 聚合器模块 激活模块(激活函数) 正则化模块 优化模块(损失函数、优化器、梯度处理器) 计算运算符 | 基础设施层 计算组件 存储组件 通信组件 组件之间的接口 与运算符层之间的接口 |
跨层模块 操作功能模块 系统安全功能模块 监管与审计模块 |
常见的关注点
隐私和安全:数据安全、隐私保护、传输安全
效率
经济可行性
性能评估
- 隐私和安全
评估泄漏攻击的严重程度、FML攻击的严重程度。
- 模型性能
模型性能之间的差异:可以根据与应用程序任务相关的准确性、精确度、召回率、图像质量或任何其他措施来衡量。
- 计算效率
训练时间、测试时间、主存用量、辅存用量。
- 和效率有关的因素
角色和结构、数据集、硬件、执行的方式、加密解密、通信效率、部署
- 经济可行性
- 数据集