【SDA-FC】Federated clustering with GAN-based data synthesis

Abstract

联邦聚类:
基于全局相似性度量对数据进行聚类。

k-FED和联邦模糊c-means(FFCM)对联邦学习设置K均值和模糊C均值调整
目的: 通过在所有局部聚类质心集上运行K均值来构造 K 个全局聚类质心。对Non-iid数据敏感。

本文提出:基于GAN 的数据合成聚类框架,合成数据辅助联合聚类(SDA-FC)。它在有效性和鲁棒性方面优于k-FED和FFCM,只需要一轮通信,可以异步运行,并且可以处理设备故障。指标NMI虽然常用,但不如Kappa可靠

1.INTRODUCTION

对于Non-iid场景,基于 客户端聚类或数据聚类 构建多中心框架(同时训练多个全局模型)比普通单中心框架更好。

客户端集群:
每个客户端可能来自特定分布,使用同一集群中的客户端来协同训练特定的全局模型
但是: 单个客户端中的数据样本也可能来自特定分布
所以: 数据集群(联邦集群)更有利客户端协作。

**联邦聚类:**基于全局相似性对数据进行聚类,并保持数据本地私有。

当前研究的不足:
局部数据不足以正确对自身分组,全局数据可以,但出于隐私性无法共享全局数据。
K-FED和联邦模糊C-means(FFCM) 使用集中聚类算法k-means和模糊c-means

背后原理: 全局相似度度量(K个全局聚类质心)可以通过在所有局部聚类质心集上运行KM来构建,其中K是聚类的真实数量。
局部质心依赖局部数据分布,对Non-iid敏感,故全局质心脆弱。

本文贡献:基于GAN 的数据合成聚类框架,合成数据辅助联合聚类(SDA-FC)。
两个主要步骤:全局合成数据构造和聚类分配

  • 第一步:服务器使用本地数据训练多个本地GANs,构建全局合成数据。
  • 第二步:服务器对全局合成数据进行 KM/FCM ,得到K个全局聚类执行,根据局部数据到质心的预先聚类进行聚类赋值,得到最终聚类结果。

SDA-FC可以很好地缩小联邦聚类和集中聚类之间的差距

在这里插入图片描述
d真实质心,只有c最接近。

2.Related Work

2.1. Core challenges in federated learning

传统集中式学习,服务器存储客户端收集的所有数据。 对服务器存储计算能力要求较高。
即使是分布式学习也需要获取全局数据才能划分数据,有隐私问题。

联邦学习有四个核心挑战:

  • Expensive Communication.
    需要更少的通讯轮数和传输更小的数据。
  • Systems Heterogeneity.
    训练大型模型,由于种种局限,不是所有客户端都能参与训练。预测设备的低参与水平并对故障设备有健壮性。
  • Data Heterogeneity.
    Non-iid数据问题,收敛缓慢,模型性能差。使用基于客户端聚类或数据聚类构建多中心框架。
  • Privacy Concerns.
    攻击者可以从梯度和参数中重建原始数据。差分隐私用于保护,但降低模型性能。
2.2. Federated clustering

由于隐私性,无法测量客户端之间样本的相似性。

两种类似的方法k-FED和FFCM:依赖于局部数据分布,不可靠。

使用GAN数据合成,构建与全局数据的良好近似,不共享私有数据且更有效的捕获全局相似度特征。只需一次通信,可以异步运行,可以处理设备故障。

3. Synthetic Data Aided Federated Clustering (SDA-FC)

3.1. Preliminaries

GAN由两个网络组成:发生器和鉴别器。
生成器: 生成尽可能真实的样本来欺骗鉴别器
鉴别器: 将生成的样本与正式的样本区分开来
当鉴别器无法区分生成和真实样本时,结束。即以学会真实分布,达到理论全局最优。
函数定义:
在这里插入图片描述
G G G: 输入噪声 z z z并输出生成样本的生成器
N \mathcal N N:高斯分布
D D D 输入样本并输出标量以区分生成和真实样本的判别器
p r p_r pr 真实数据的分布

GAN对抗训练不稳定,模式塌缩表现为生成样本高质量,低多样性 ,模型只能捕捉真实数据的部分特征。

在生成器的输入中引入一个额外的分类变量,使生成数据在潜在空间的聚类结构更加清晰,即生成样本的多样化。

为减轻模式崩溃,使用离散和连续变量的混合作为生成器的输入。遵循:
在这里插入图片描述
U \mathcal U U 是均匀随机分布,最小1,最大K, e k e_k ek 是one-hot向量,第K个元素为1。

3.2. Synthetic Data Aided Federated Clustering (SDA-FC)

给定一个分布在 M M M 个客户端的数据集 X X X X = ⋃ i = 1 M X ( i ) X=\bigcup_{i=1}^M X^{(i)} X=i=1MX(i) 服务器构造 X X X 的良好近似来间接捕获全局相似度特征,不访问 本地数据 X ( i ) X^{(i)} X(i)

3.2.1. Global synthetic data construction

客户端 i ( i = 1 , . . . , M ) i (i=1,...,M) i(i=1,...,M) 从服务器端下载初始GAN模型,使用本地数据 X ( i ) X^{(i)} X(i) 进行训练,将生成器 G ( i ) G^{(i)} G(i) X ( i ) X^{(i)} X(i) 的本地数据大小 上传服务器。
服务器使用 G ( i ) G^{(i)} G(i) 生成和 X ( i ) X^{(i)} X(i) 大小相应的数据集 X ^ ( i ) \hat{X}^{(i)} X^(i),将生成的数据合成数据集 X ^ = ⋃ i = 1 M X ^ ( i ) \hat{X} = \bigcup_{i=1}^{M}\hat{X}^{(i)} X^=i=1MX^(i)

3.2.2. Cluster assignment

将SDA-FC与K-means (KM)和模糊c-means (FCM)结合起来,得到了SDA-FC-KM和SDA-FC-FCM两种具体方法。
服务器对全局合成的数据进行KM 和 FCM 得到 k 个全局质心。

客户端下载质心,根据局部数据到执行的余弦距离进行聚类分配,得到最终聚类结果。

怎么连个算法说明都没有。。。。

4. Experimental results

4.1. Experimental Settings

将真实数据集划分为 K K K个更小的子集,每个子集对应一个客户端,并缩放客户端的 Non-iid级别 p p p 来模拟不同的的联邦场景, K K K 是集群的真实数量。

对于拥有 S S S 个数据点的客户端,前 p ⋅ S p \cdot S pS 个数据从单个聚类中采样,其余 ( 1 − p ) ⋅ S (1-p) \cdot S (1p)S 个数据点从任意聚类中随机采样,
极端的, p = 0 p=0 p=0 表示客户端上的数据是 IID,
p = 1 p=1 p=1 表示客户端上的数据完全不是IID。

两个灰色图像数据集 M N I S T MNIST MNIST F a s h i o n M N I S T Fashion_MNIST FashionMNIST
两个 彩色图像数据集 C I F A R − 10 CIFAR-10 CIFAR10 S T L − 10 STL-10 STL10
一个时间序列数据集 P e n d i g i t s Pendigits Pendigits
在SDAFC 中,所有本地GANs都是用 Adam Optimizer进行训练

4.2. Effectiveness analysis of SDA-FC

baseline: 联邦聚类方法 K-FED 和 联邦模糊C均值 FFCM

为了对比联邦聚类和集中聚类之间的差异,对比了集中场景下的 k-means (KM) 和 模糊 c-means (FCM)的数值结果, 分别即为 KM 中心FCM 中心

所有实验中,基于FCM的方法,模糊度均设为1.1

基于NMI 和 Kappa的聚类性能如表 3 、4
可以观察到:

  • 基于KM的方法,两个指标都显示所提方法在鲁棒性和有效性方面 优于K-FED 基于 FCM的方法,两个指标排名不同
  • 通过SDA-FC框架缩小了联邦聚类和集中聚类之间的差距

NMI 值由于自身缺陷,有误导性,Kappa更可靠。

4.3. Effectiveness analysis of the global synthetic dataset

提升算法适用性的关键: 确保由SDA-FC生成的全局合成数据集与真实数据集非常接近

对每个图像数据集,首先生成一个与真实数据集相同大小的全局合成数据集,并将生成的部分图像随机可视化。

使用t-SNE 将数据分布可视化,
在这里插入图片描述
在这里插入图片描述

可知:1)生成图像中的物体可能无法识别,但SDA-FC捕获了数据的基本特征。2)全局合成数据与真实数据集高度重合,是很好地近似。3)灰色图像数据集比彩色图像数据集的聚类结构更清晰。 故聚类结果更好

4.4. Sensitivity analysis of clustering performance to device failures

故障设备中的某些特定数据特征可能会丢失,聚类性能对设备故障的敏感性分析值得研究。

故障设备占所有设备的百分比表示为断连率
通过缩放断开率来模拟MNIST上不同的断开场景.
设备故障对聚类性能的影响与Non-IID级别p呈正相关,因为p越大,客户端之间数据特征的互换性越小

在这里插入图片描述

  • 本文提出的方法在有效性和鲁棒性方面优于k-FED和FFCM。
  • Kappa是一个比NMI更可靠的指标。
  • 局部GANs生成的全局合成数据集与真实数据集很好地近似。
  • 聚类性能对设备故障的敏感性与异构水平p呈正相关。

5. Conclusion

SDA-FC结合浅聚类方法不能处理更复杂的数据(如彩色图像)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值