DPdisPCA算法原理笔记

superY25

已于 2023-06-18 14:30:12 修改

阅读量356

点赞数

分类专栏：论文阅读笔记文章标签：机器学习联邦学习横向PCA DPdisPCA

于 2023-06-18 14:13:38 首次发布

本文链接：https://blog.csdn.net/superY_26/article/details/131269413

版权

论文阅读笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

概要

本文简单理顺《Differentially Private Distributed Principal Component Analysis》论文中的算法原理，它主要提出了一种基于差分隐私的分布式PCA算法，研究了该算法在实验数据以及真实数据中的表现，在参数相同的情况下本算法取得了和没有隐私保护的算法相同级别的效果。

算法原理

一些数学公式上的符号定义：
1、 $S$ 表示分布式中有 $S$ 个站点；
2、每个站点的数据集 $D\times N_s$ 其中 $\in [S]$ 表示有 $D$ 维 $N_s$ 个样本量，样本集表示成 $X_s=[x_{s,1},x_{s,2},...,x_{s,N_s}]$ ；
3、并且样本集的样本满足对 $\forall n \in [N_s]$ 都有 $||x_{s,n}||_2 \le 1, \forall s \in [S]$ ，简单说就是观察样本符合均值中心化；
4、每个站点的协方差矩阵： $A_s=\frac{1}{N_s}X_sX_s^T$ ；
5、各站点的总样本数： $N=\sum_{s=1}^SN_s$ ，整体样本： $X=[X_1,X_2,...,X_{S}] \in \R^{D\times N}$ ，整体样本的协方差： $A=\frac{1}{N}XX^T$

PCA和差分隐私的简单介绍参见：https://blog.csdn.net/superY_26/article/details/131140813

DPdisPCA算法的逻辑如下图：

图中for循环内的逻辑在每个站点执行，主要操作为：
1、计算各站点的协方差

A_s

2、生成服从

N(0,τ^2)

分布

τ=\frac{1}{N_s\epsilon} \sqrt{2log(\frac{1.25}{\delta})}

的随机噪声

E

3、将协方差加入噪声

\hat{A_s}=A_s+E

4、求协方差的SVD：

\hat{A_s}=U\Sigma U^T

5、计算

P_s=U_R\Sigma_R^{\frac{1}{2}}, \scriptsize (K<R<<D)

，并将其发送给aggregator。

循环外则是aggregator的操作：
1、整合每个站点发过来的 $P_s$ ： $A_c=\frac{1}{S}\sum_{s=1}^SP_sP_s^T$
2、求 $A_c$ 的SVD： $A_c=V\Lambda V^T$
3、按特征值排序去top K的特征向量得到 $V_K$

算法中各站点为什么发送 $P_s$ 给aggregator？
【原因】算法中对于各站点发送截断的P_s是因为考虑通信成本的问题，降低通信量，提升性能。
最好的发送加入噪声的协方差 $\hat {A_s}$ 进行汇总，然后求SVD值。这个被证明效果会更好。

实验结果

在这里插入图片描述

superY25

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DPdisPCA算法原理笔记

概要本文简单理顺《Differentially Private Distributed Principal Component Analysis》论文中的算法原理，它主要提出了一种基于差分隐私的分布式PCA算法，研究了该算法在实验数据以及真实数据中的表现，在参数相同的情况下本算法取得了和没有隐私保护的算法相同级别的效果。算法原理一些数学公式上的符号定义：1、SSS表示分布式中有SSS个站点；2、每个站点的数据集D×NsD\times N_sD×Ns其中s∈[S]s \in [S]s∈[S]表示有
复制链接

扫一扫