Byzantine-Resilient Federated Machine Learning via Over-the-Air Computation
通过空中计算的拜占庭弹性联合机器学习
Abstract
在无线资源有限的无线网络中设计拜占庭弹性FL范式,提出一种基于空中计算的通信效率鲁棒模型聚合方案。
应用Weiszfeld算法获得针对拜占庭攻击的平滑几何中值聚合,利用该算法的加法结构,通过AirComp匹配多址信道的信号叠加性,加快FL通信高效聚合。
一、INTRODUCTION
差分隐私
在传输之前将随机扰动引入局部模型。
通过非编码传输,信道噪声亦可充当隐私诱导机制。
拜占庭攻击分为三类:
数据中毒攻击、模型中毒攻击、搭便车攻击。
FL算法分为四类:
鲁棒聚合规则、从理论角度的信息预处理方法、带正则化项的模型、对抗检测。
聚合规则:
几何中值geometric mean、坐标中值coordinate-wise mean、修剪均值trimmed mean、Krum
几何中值聚合要求求解凸优化问题,模型参数较大时,计算复杂度过高,采用改进的Weiszfeld算法,引入一个用于数值稳定的平滑因子。
基于无线网络中的信息交换受无线资源的限制,提出基于AirComp的新型通信高效鲁棒聚合方案,利用多址信道的信号叠加特性来提高通信效率并减少所需带宽。
二、SYSTEM MODEL
A. Federated Learning Model
一个服务器,
K
K
K 个设备,设备
k
∈
K
k \in \mathcal{K}
k∈K 有自己的本地数据。
w
∈
R
d
w\in \mathbb{R}^d
w∈Rd :表示全局模型的参数
ξ
∈
Ξ
\xi\in\Xi
ξ∈Ξ :按一定概率分布的随机样本变量
f
:
R
d
×
Ξ
f:\mathbb{R}^d \times \Xi
f:Rd×Ξ:表示损失函数
对设备
k
∈
K
k \in \mathcal{K}
k∈K,
D
k
\mathcal{D}_k
Dk 是
Ξ
\Xi
Ξ 上的概率分布
α
k
\alpha_k
αk :每个设备的相对权重,
∑
k
∈
K
α
k
=
1
\sum_{k\in \mathcal{K}}\alpha_k = 1
∑k∈Kαk=1,
α
k
=
n
k
n
\alpha_k = \frac{n_k}{n}
αk=nnk,
n
k
n_k
nk为设备
k
k
k中的数据样本,
n
=
∑
k
∈
K
n
k
n=\sum_{k\in \mathcal{K}}n_k
n=∑k∈Knk 是数据样本总数。
假设 f ( ⋅ ; ξ ) f(\cdot;\xi) f(⋅;ξ) 对于 ξ \xi ξ 连续可微。
随机变量
ξ
=
(
x
,
y
)
\xi=(x,y)
ξ=(x,y) 是一个数据标签对
损失函数
f
(
w
;
ξ
)
=
l
(
y
,
ϕ
(
x
;
w
)
)
f(w;\xi)=l(y,\phi(x;w))
f(w;ξ)=l(y,ϕ(x;w)),其中
ϕ
\phi
ϕ 将数据
x
x
x 映射到一个用模型参数
w
w
w 做出的预测,
l
l
l 是一个特定损失函数,如 平方损失和交叉熵。
映射函数可以是:
ϕ
(
x
,
w
)
=
w
T
x
\phi(x,w)=w^Tx
ϕ(x,w)=wTx
B. Byzantine Attack and Robust Aggregation
假设系统中 K K K 个设备中有 B B B 个拜占庭设备,拜占庭设备集合 B \cal{B} B。当 B < K 2 B<\frac{K}{2} B<2K 时,具有几何中值聚集规则的分布式SGD线性收敛于最优解。
α
k
>
0
\alpha_k>0
αk>0 为权重,
∣
∣
⋅
∣
∣
||\cdot ||
∣∣⋅∣∣ 为欧氏距离,求解空间
R
d
\mathbb{R}^d
Rd中距离最小的向量
{
w
k
,
k
∈
K
}
\lbrace w_k,k\in \cal{K} \rbrace
{wk,k∈K}。
g
(
z
)
:
=
∑
k
∈
K
α
k
∣
∣
z
−
w
k
∣
∣
g(z) := \sum_{k\in\cal{K}}\alpha_k ||z-w_k||
g(z):=∑k∈Kαk∣∣z−wk∣∣
C. Smoothed Geometric Median
引入平滑因子
v
>
0
v>0
v>0 来避免分母的极小值,平滑函数表示为:
可以通过Weiszfeld算法进行凸优化:
w
(
t
)
w^{(t)}
w(t) 为Weiszfeld算法的初始迭代点,算法1中需要几轮迭代才能照奥防御拜占庭攻击的平滑几何中值,计算开销通信成本过大。
三、COMMUNICATION-EFFICIENT MODEL AGGREGATION PROTOCOL
略
四、SIMULATION RESULTS
A. Simulation Setup
MINIST手写数据集,60000个训练数据,随机分为 K = 50 K=50 K=50 子样本,权重为 α k = 1 K \alpha_k=\frac{1}{K} αk=K1,batch为 b = 50 b=50 b=50,学习率 1 0 − 2 10^{-2} 10−2
Weiszfeld算法内:
最大迭代次数:1000
中断容忍度:
1
0
−
5
10^{-5}
10−5
平滑因子:
v
=
1
0
−
4
v=10^{-4}
v=10−4
攻击
- class flip: 数据中毒攻击,拜占庭设备上每个训练标签都被替换为 9 − i 9-i 9−i
- weight flip:模型中毒攻击,对拜占庭设备发送的模型参数进行修改,取没有攻击时加权平均值得负值,
B. Performance Evaluation
略。
五、CONCLUSION
好。