Federated clustering with GAN-based data synthesis使用基于gan的数据合成的联邦集群
Abstract
联邦聚类:
基于全局相似性度量对数据进行聚类。
k-FED和联邦模糊c-means(FFCM)对联邦学习设置K均值和模糊C均值调整。
目的: 通过在所有局部聚类质心集上运行K均值来构造 K 个全局聚类质心。对Non-iid数据敏感。
本文提出:基于GAN 的数据合成聚类框架,合成数据辅助联合聚类(SDA-FC)。它在有效性和鲁棒性方面优于k-FED和FFCM,只需要一轮通信,可以异步运行,并且可以处理设备故障。指标NMI虽然常用,但不如Kappa可靠
1.INTRODUCTION
对于Non-iid场景,基于 客户端聚类或数据聚类 构建多中心框架(同时训练多个全局模型)比普通单中心框架更好。
客户端集群:
每个客户端可能来自特定分布,使用同一集群中的客户端来协同训练特定的全局模型
但是: 单个客户端中的数据样本也可能来自特定分布
所以: 数据集群(联邦集群)更有利客户端协作。
**联邦聚类:**基于全局相似性对数据进行聚类,并保持数据本地私有。
当前研究的不足:
局部数据不足以正确对自身分组,全局数据可以,但出于隐私性无法共享全局数据。
K-FED和联邦模糊C-means(FFCM) 使用集中聚类算法k-means和模糊c-means
背后原理: 全局相似度度量(K个全局聚类质心)可以通过在所有局部聚类质心集上运行KM来构建,其中K是聚类的真实数量。
局部质心依赖局部数据分布,对Non-iid敏感,故全局质心脆弱。
本文贡献:基于GAN 的数据合成聚类框架,合成数据辅助联合聚类(SDA-FC)。
两个主要步骤:全局合成数据构造和聚类分配
- 第一步:服务器使用本地数据训练多个本地GANs,构建全局合成数据。
- 第二步:服务器对全局合成数据进行 KM/FCM ,得到K个全局聚类执行,根据局部数据到质心的预先聚类进行聚类赋值,得到最终聚类结果。
SDA-FC可以很好地缩小联邦聚类和集中聚类之间的差距
d真实质心,只有c最接近。
2.Related Work
2.1. Core challenges in federated learning
传统集中式学习,服务器存储客户端收集的所有数据。 对服务器存储计算能力要求较高。
即使是分布式学习也需要获取全局数据才能划分数据,有隐私问题。
联邦学习有四个核心挑战:
- Expensive Communication.
需要更少的通讯轮数和传输更小的数据。 - Systems Heterogeneity.
训练大型模型,由于种种局限,不是所有客户端都能参与训练。预测设备的低参与水平并对故障设备有健壮性。 - Data Heterogeneity.
Non-iid数据问题,收敛缓慢,模型性能差。使用基于客户端聚类或数据聚类构建多中心框架。 - Privacy Concerns.
攻击者可以从梯度和参数中重建原始数据。差分隐私用于保护,但降低模型性能。
2.2. Federated clustering
由于隐私性,无法测量客户端之间样本的相似性。
两种类似的方法k-FED和FFCM:依赖于局部数据分布,不可靠。
使用GAN数据合成,构建与全局数据的良好近似,不共享私有数据且更有效的捕获全局相似度特征。只需一次通信,可以异步运行,可以处理设备故障。
3. Synthetic Data Aided Federated Clustering (SDA-FC)
3.1. Preliminaries
GAN由两个网络组成:发生器和鉴别器。
生成器: 生成尽可能真实的样本来欺骗鉴别器
鉴别器: 将生成的样本与正式的样本区分开来
当鉴别器无法区分生成和真实样本时,结束。即以学会真实分布,达到理论全局最优。
函数定义:
G
G
G: 输入噪声
z
z
z并输出生成样本的生成器
N
\mathcal N
N:高斯分布
D
D
D 输入样本并输出标量以区分生成和真实样本的判别器
p
r
p_r
pr 真实数据的分布
GAN对抗训练不稳定,模式塌缩表现为生成样本高质量,低多样性 ,模型只能捕捉真实数据的部分特征。
在生成器的输入中引入一个额外的分类变量,使生成数据在潜在空间的聚类结构更加清晰,即生成样本的多样化。
为减轻模式崩溃,使用离散和连续变量的混合作为生成器的输入。遵循:
U
\mathcal U
U 是均匀随机分布,最小1,最大K,
e
k
e_k
ek 是one-hot向量,第K个元素为1。
3.2. Synthetic Data Aided Federated Clustering (SDA-FC)
给定一个分布在 M M M 个客户端的数据集 X X X X = ⋃ i = 1 M X ( i ) X=\bigcup_{i=1}^M X^{(i)} X=i=1⋃MX(i) 服务器构造 X X X 的良好近似来间接捕获全局相似度特征,不访问 本地数据 X ( i ) X^{(i)} X(i)
3.2.1. Global synthetic data construction
客户端
i
(
i
=
1
,
.
.
.
,
M
)
i (i=1,...,M)
i(i=1,...,M) 从服务器端下载初始GAN模型,使用本地数据
X
(
i
)
X^{(i)}
X(i) 进行训练,将生成器
G
(
i
)
G^{(i)}
G(i) 和
X
(
i
)
X^{(i)}
X(i) 的本地数据大小 上传服务器。
服务器使用
G
(
i
)
G^{(i)}
G(i) 生成和
X
(
i
)
X^{(i)}
X(i) 大小相应的数据集
X
^
(
i
)
\hat{X}^{(i)}
X^(i),将生成的数据合成数据集
X
^
=
⋃
i
=
1
M
X
^
(
i
)
\hat{X} = \bigcup_{i=1}^{M}\hat{X}^{(i)}
X^=⋃i=1MX^(i)
3.2.2. Cluster assignment
将SDA-FC与K-means (KM)和模糊c-means (FCM)结合起来,得到了SDA-FC-KM和SDA-FC-FCM两种具体方法。
服务器对全局合成的数据进行KM 和 FCM 得到 k 个全局质心。
客户端下载质心,根据局部数据到执行的余弦距离进行聚类分配,得到最终聚类结果。
怎么连个算法说明都没有。。。。
4. Experimental results
4.1. Experimental Settings
将真实数据集划分为 K K K个更小的子集,每个子集对应一个客户端,并缩放客户端的 Non-iid级别 p p p 来模拟不同的的联邦场景, K K K 是集群的真实数量。
对于拥有
S
S
S 个数据点的客户端,前
p
⋅
S
p \cdot S
p⋅S 个数据从单个聚类中采样,其余
(
1
−
p
)
⋅
S
(1-p) \cdot S
(1−p)⋅S 个数据点从任意聚类中随机采样,
极端的,
p
=
0
p=0
p=0 表示客户端上的数据是 IID,
p
=
1
p=1
p=1 表示客户端上的数据完全不是IID。
两个灰色图像数据集
M
N
I
S
T
MNIST
MNIST 和
F
a
s
h
i
o
n
M
N
I
S
T
Fashion_MNIST
FashionMNIST
两个 彩色图像数据集
C
I
F
A
R
−
10
CIFAR-10
CIFAR−10 和
S
T
L
−
10
STL-10
STL−10
一个时间序列数据集
P
e
n
d
i
g
i
t
s
Pendigits
Pendigits
在SDAFC 中,所有本地GANs都是用 Adam Optimizer进行训练
4.2. Effectiveness analysis of SDA-FC
baseline: 联邦聚类方法 K-FED 和 联邦模糊C均值 FFCM
为了对比联邦聚类和集中聚类之间的差异,对比了集中场景下的 k-means (KM) 和 模糊 c-means (FCM)的数值结果, 分别即为 KM 中心 和 FCM 中心。
所有实验中,基于FCM的方法,模糊度均设为1.1
基于NMI 和 Kappa的聚类性能如表 3 、4
可以观察到:
- 基于KM的方法,两个指标都显示所提方法在鲁棒性和有效性方面 优于K-FED 基于 FCM的方法,两个指标排名不同
- 通过SDA-FC框架缩小了联邦聚类和集中聚类之间的差距
NMI 值由于自身缺陷,有误导性,Kappa更可靠。
4.3. Effectiveness analysis of the global synthetic dataset
提升算法适用性的关键: 确保由SDA-FC生成的全局合成数据集与真实数据集非常接近
对每个图像数据集,首先生成一个与真实数据集相同大小的全局合成数据集,并将生成的部分图像随机可视化。
使用t-SNE 将数据分布可视化,
可知:1)生成图像中的物体可能无法识别,但SDA-FC捕获了数据的基本特征。2)全局合成数据与真实数据集高度重合,是很好地近似。3)灰色图像数据集比彩色图像数据集的聚类结构更清晰。 故聚类结果更好
4.4. Sensitivity analysis of clustering performance to device failures
故障设备中的某些特定数据特征可能会丢失,聚类性能对设备故障的敏感性分析值得研究。
故障设备占所有设备的百分比表示为断连率。
通过缩放断开率来模拟MNIST上不同的断开场景.
设备故障对聚类性能的影响与Non-IID级别p呈正相关,因为p越大,客户端之间数据特征的互换性越小
- 本文提出的方法在有效性和鲁棒性方面优于k-FED和FFCM。
- Kappa是一个比NMI更可靠的指标。
- 局部GANs生成的全局合成数据集与真实数据集很好地近似。
- 聚类性能对设备故障的敏感性与异构水平p呈正相关。
5. Conclusion
SDA-FC结合浅聚类方法不能处理更复杂的数据(如彩色图像)