【SDA-FC】Federated clustering with GAN-based data synthesis

Martinwxx

已于 2023-03-30 11:18:13 修改

阅读量877

点赞数 1

文章标签：生成对抗网络聚类机器学习

于 2023-03-16 16:25:08 首次发布

本文链接：https://blog.csdn.net/qq_41444809/article/details/129578619

版权

Federated clustering with GAN-based data synthesis使用基于gan的数据合成的联邦集群

Abstract

联邦聚类：
基于全局相似性度量对数据进行聚类。

k-FED和联邦模糊c-means（FFCM）对联邦学习设置K均值和模糊C均值调整。
目的： 通过在所有局部聚类质心集上运行K均值来构造 K 个全局聚类质心。对Non-iid数据敏感。

本文提出：基于GAN 的数据合成聚类框架，合成数据辅助联合聚类(SDA-FC)。它在有效性和鲁棒性方面优于k-FED和FFCM，只需要一轮通信，可以异步运行，并且可以处理设备故障。指标NMI虽然常用，但不如Kappa可靠

1.INTRODUCTION

对于Non-iid场景，基于 客户端聚类或数据聚类 构建多中心框架（同时训练多个全局模型）比普通单中心框架更好。

客户端集群：
每个客户端可能来自特定分布，使用同一集群中的客户端来协同训练特定的全局模型
但是： 单个客户端中的数据样本也可能来自特定分布
所以： 数据集群（联邦集群）更有利客户端协作。

**联邦聚类：**基于全局相似性对数据进行聚类，并保持数据本地私有。

当前研究的不足：
局部数据不足以正确对自身分组，全局数据可以，但出于隐私性无法共享全局数据。
K-FED和联邦模糊C-means（FFCM） 使用集中聚类算法k-means和模糊c-means

背后原理： 全局相似度度量(K个全局聚类质心)可以通过在所有局部聚类质心集上运行KM来构建，其中K是聚类的真实数量。
局部质心依赖局部数据分布，对Non-iid敏感，故全局质心脆弱。

本文贡献：基于GAN 的数据合成聚类框架，合成数据辅助联合聚类(SDA-FC)。
两个主要步骤:全局合成数据构造和聚类分配

第一步：服务器使用本地数据训练多个本地GANs，构建全局合成数据。
第二步：服务器对全局合成数据进行 KM/FCM ，得到K个全局聚类执行，根据局部数据到质心的预先聚类进行聚类赋值，得到最终聚类结果。

SDA-FC可以很好地缩小联邦聚类和集中聚类之间的差距

在这里插入图片描述
d真实质心，只有c最接近。

2.Related Work

2.1. Core challenges in federated learning

传统集中式学习，服务器存储客户端收集的所有数据。对服务器存储计算能力要求较高。
即使是分布式学习也需要获取全局数据才能划分数据，有隐私问题。

联邦学习有四个核心挑战：

Expensive Communication.
需要更少的通讯轮数和传输更小的数据。
Systems Heterogeneity.
训练大型模型，由于种种局限，不是所有客户端都能参与训练。预测设备的低参与水平并对故障设备有健壮性。
Data Heterogeneity.
Non-iid数据问题，收敛缓慢，模型性能差。使用基于客户端聚类或数据聚类构建多中心框架。
Privacy Concerns.
攻击者可以从梯度和参数中重建原始数据。差分隐私用于保护，但降低模型性能。

2.2. Federated clustering

由于隐私性，无法测量客户端之间样本的相似性。

两种类似的方法k-FED和FFCM：依赖于局部数据分布，不可靠。

使用GAN数据合成，构建与全局数据的良好近似，不共享私有数据且更有效的捕获全局相似度特征。只需一次通信，可以异步运行，可以处理设备故障。

3. Synthetic Data Aided Federated Clustering (SDA-FC)

3.1. Preliminaries

GAN由两个网络组成：发生器和鉴别器。
生成器： 生成尽可能真实的样本来欺骗鉴别器
鉴别器： 将生成的样本与正式的样本区分开来
当鉴别器无法区分生成和真实样本时，结束。即以学会真实分布，达到理论全局最优。
函数定义：
在这里插入图片描述
$G$ : 输入噪声 $z$ 并输出生成样本的生成器
$\mathcal N$ :高斯分布
$D$ 输入样本并输出标量以区分生成和真实样本的判别器
$p_r$ 真实数据的分布

GAN对抗训练不稳定，模式塌缩表现为生成样本高质量，低多样性 ，模型只能捕捉真实数据的部分特征。

在生成器的输入中引入一个额外的分类变量，使生成数据在潜在空间的聚类结构更加清晰，即生成样本的多样化。

为减轻模式崩溃，使用离散和连续变量的混合作为生成器的输入。遵循：
在这里插入图片描述
$\mathcal U$ 是均匀随机分布，最小1，最大K， $e_k$ 是one-hot向量，第K个元素为1。

3.2. Synthetic Data Aided Federated Clustering (SDA-FC)

给定一个分布在

最低0.47元/天解锁文章