联邦学习常见问题

胡乱编胡乱赢

于 2025-05-30 14:46:20 发布

阅读量1.3k

点赞数 25

文章标签：联邦学习参数隐私保护

本文链接：https://blog.csdn.net/qq_65213554/article/details/148337605

版权

萌芽阶段（2016年前）：分布式机器学习、隐私保护技术（如差分隐私）的发展为联邦学习奠定基础。
提出阶段（2016年）：谷歌首次提出“联邦学习”（Federated Learning）概念，用于解决安卓手机用户数据隐私问题。
扩展阶段（2017-2020年）：从横向联邦（数据特征重叠、样本不同）扩展到纵向联邦（样本重叠、特征不同）和联邦迁移学习，应用领域从金融、医疗扩展到物联网等。
标准化阶段（2020年后）：开源框架（如FATE、TensorFlow Federated）和行业标准（如IEEE联邦学习标准）逐步完善。

联邦学习要求数据不出本地，避免原始数据泄露。本地训练的参数是模型的权重、梯度或中间特征，例如神经网络的层参数（如卷积核权重、全连接层偏差）。以图像分类模型为例，本地训练时客户端通过反向传播更新这些参数，仅将更新后的参数上传至服务器。

例子说明：

隐私保护：参数是数据的抽象表示，不含原始样本信息。例如，医院A的肺癌数据在本地训练后，上传的是模型对 “结节大小”“密度” 等特征的权重，而非具体患者的CT图像。
通信效率：参数体积远小于原始数据。假设一个神经网络有100万个参数，每个参数占4字节，总传输量约4MB，而原始CT图像可能达数十MB。

加密技术：同态加密允许在加密参数上直接计算，如服务器聚合加密后的梯度时无需解密。例如，WorldQuant 的 Federated Alpha 系统采用同态加密处理金融机构的本地梯度，确保交易数据不泄露。
差分隐私：在参数中添加随机噪声，使单个数据点的影响被稀释。例如，某医院上传的模型参数加入噪声后，攻击者无法推断出特定患者的病情。
模型分解：FedCG算法将模型分为私有特征提取器和公共分类器，仅上传生成器参数，避免暴露原始特征。

本地训练的是模型对本地数据的适应性。例如，多个医院联合训练糖尿病预测模型：

FedAvg 算法：服务器对客户端参数进行加权平均，权重由客户端数据量决定。例如，医院 A 有10万条数据，医院B有5万条，聚合时 A 的参数贡献占比为 2/3。
FedProx 优化：针对数据异质性，引入近端项限制参数偏离全局模型，防止模型崩溃。公式为：
FedKTL 框架：服务器通过生成器生成原型图像对，结合ETF分类器实现域对齐，将知识转移至客户端，减少通信开销。

通信开销：模型参数的多次上传下载耗时，尤其在大规模网络中。例如，FedAvg 训练 ResNet-18模型时，每轮通信需传输数十MB数据。
数据异质性：客户端数据分布差异（如标签偏斜、特征偏斜）导致模型收敛慢。例如，医院A的糖尿病患者以老年人为主，医院B以年轻人为主，全局模型可能对某一群体效果差。
安全漏洞：梯度反推攻击可通过参数还原部分原始数据。例如，攻击者利用GAN生成与训练数据相似的样本。