论文题目:Privacy-Preserving Federated Learning for UAV-Enabled Networks: Learning-Based Joint Scheduling and Resource Management
核心思想:利用强化学习执行资源管理、无人机放置、设备分配问题,进而利用联邦学习进行模型训练。
场景
- 多无人机网络包含n个无人机和k个单一天线地面设备。
- 多无人机做空中基站为地面设备提供无线服务。
- 部分地面设备低速(<5m/s)移动。
贡献
- 提出了一个在多无人机网络中聚合和更新机器学习模型的隐私保护异步联邦学习(AFL)框架。
- 将资源管理、设备选择(用于聚合模型)、无人机位置部署问题建模为多agent强化学习(RL)问题。
- 提出了多agent基于异步优势动作评价算法(A3C-based),用于在动态环境中最小化联邦学习时间和学习精度损失的加权和。
系统模型
FL模型
对于第k个设备,其损失函数表达式如下:(局部损失函数)
F
k
(
W
n
)
=
1
∣
D
k
∣
∑
i
∈
D
k
f
(
W
n
;
S
k
,
i
;
z
k
,
i
)
,
∀
k
∈
K
F_k(W_n)=\frac{1}{|D_k|}\displaystyle \sum_ {i\in D_k}f(W_n;S_{k,i};z_{k,i}), \ \forall k\in \mathcal{K}
Fk(Wn)=∣Dk∣1i∈Dk∑f(Wn;Sk,i;zk,i), ∀k∈K
对于第n个无人机基站,平均损失函数表达式如下:(全局损失函数)
F
n
(
w
n
)
=
1
∣
D
n
∣
∑
k
∈
k
n
∑
i
∈
D
k
f
(
W
n
;
S
k
,
i
;
z
k
,
i
)
F_n(w_n)=\frac{1}{|D_n|}\sum_{k \in\mathcal{k_n}}\sum_{i\in{D_k}}f(W_n;S_{k,i};z_{k,i})
Fn(wn)=∣Dn∣1k∈kn∑i∈Dk∑f(Wn;Sk,i;zk,i)
FL任务的目标就是寻找使全局损失函数达到最小的最优模型,即:
W
n
∗
=
a
r
g
m
i
n
F
(
W
n
)
,
∀
n
∈
N
W^*_n=arg\ min\ F(W_n),\ \forall n \in\mathcal N
Wn∗=arg min F(Wn), ∀n∈N
通信模型
- 上行传输
单个无人机覆盖的单元内,上行链路采用正交频分多址接入技术(OFDMA),因此单元内各设备间不存在信号干扰;单元间的设备复用信道,因此不同单元间复用同一条子信道的设备间存在信号干扰。 - 下行传输
每个无人机占用一个给定的下行信道,因此下行传输不存在干扰;但是在多个无人机覆盖的重叠区域,设备会受到单元间干扰(ICI)。
FL模型更新延迟分析
- 本地模型更新延迟
T k L o c , t = ∣ D k ∣ C k / F k , ∀ k T_k^{Loc,t}\ =|D_k|C_k/F_k,\ \forall k TkLoc,t =∣Dk∣Ck/Fk, ∀k - 本地模型上传延迟
T k U , t = L k / R k U , t , ∀ k T_k^{U,t}\ =L_k/R_k^{U,t} ,\ \forall k TkU,t =Lk/RkU,t, ∀k - 全局模型聚合延迟
T n G l o , t = ∣ D n ∣ C n / F n , ∀ n T_n^{Glo,t}\ =|D_n|C_n/F_n,\ \forall n TnGlo,t =∣Dn∣Cn/Fn, ∀n - 全局模型广播延迟
T n D , t = L n / R n , k D , t , ∀ n , k T_n^{D,t}\ =L_n/R_{n,k}^{D,t}, \ \forall{n,k} TnD,t =Ln/Rn,kD,t, ∀n,k
因此,一轮FL训练的总时间成本为:
T k t = T k L o c , t + T k U , t + T n G l o , t + T n D , t T_k^t = T_k^{Loc,t}+T_k^{U,t}+T_n^{Glo,t}+T_n^{D,t} Tkt=TkLoc,t+TkU,t+TnGlo,t+TnD,t
优化问题的形式
-
对于第n个无人机,执行FL的时间成本表达式如下:
C n T i m e ( t ) = 1 K n ∑ k = 1 K n T k t , ∀ n C_n^{Time}(t)=\frac{1}{K_n}\sum_{k=1}^{K_n}T_k^t,\ \forall n CnTime(t)=Kn1k=1∑KnTkt, ∀n -
对于第n个无人机,FL的学习精度损失表达式如下:
C n L o s s ( t ) = 1 ∣ D n ∣ ∑ k ∈ k n ∑ i ∈ D k f ( W n ; S k , i ; z k , i ) , ∀ n C_n^{Loss}(t)=\frac{1}{|D_n|}\sum_{k \in\mathcal{k_n}}\sum_{i\in{D_k}}f(W_n;S_{k,i};z_{k,i}),\ \forall n CnLoss(t)=∣Dn∣1k∈kn∑i∈Dk∑f(Wn;Sk,i;zk,i), ∀n
优化目标
[约束说明]
- a)调度指标(=1:表明与第n架无人机相连接)
子信道分配指标(=1:表明分配了第m个子信道) - b)每个地面设备只能与一个空中基站相连接
- c)对于每个单元,分配的子信道数量的上限
- d)传输功率的范围
- e)计算能力的范围
AFRL的解决方案
RL环境建模
- 状态空间
第n架无人机的位置、需要传输的剩余载荷,第k个设备的位置、调度指标、子信道分配指标、需要传输的剩余载荷 - 动作空间
移动无人机的位置、功率分配、设备选择(调度)、信道分配 - 状态转移函数
- 策略
- 奖励函数
r n ( s t , a t ) = − ( λ c n T i m e ( t ) + ( 1 − λ ) c n l o s s ( t ) ) r_n(s_t,a_t)=-(\lambda c_n^{Time}(t)+(1-\lambda)c_n^{loss}(t)) rn(st,at)=−(λcnTime(t)+(1−λ)cnloss(t))
多agent A3C算法
A3C分为动作网络和评价网络,类似于生成式对抗网络中生成器和评价器:动作网络根据动作空间执行一个动作,进而评价网络评估状态值函数,评价结果又反馈给动作网络从而优化其策略,这个过程反复执行,直到奖励函数达到最大值。
A3C-AFL训练和执行
- A3C算法流程
最终实现了无人机的部署、设备选择、功率分配、信道分配的最优,为下一步AFL的执行提供了最佳条件,可以很好的缩短FL执行时间和提高FL准确率。 - AFL算法流程
这就是一般的FL模型训练过程
仿真结果
无人机位置和设备选择评估
图为无人机的位置移动以及与各无人机关联的设备分布情况。
不同全局轮次和执行时间的准确率比较
- a)在一定全局聚合轮次下,有设备选择的AFL和有设备选择的SFL实现了相近的准确率,没有设备选择的AFL的准确率较低。
[分析]设备选择可以避免低质量的设备参与全局聚合,从而提高FL准确率。 - b)在一定FL执行时间下,有设备选择的AFL实现了最高的准确率,而有设备选择SFL和没有设备选择的AFL的准确率相近且较低。
[分析]没有设备选择的AFL会花费更多的时间去等待来自低质量设备的更新,有设备选择的SFL虽然抛弃了低质量的设备,但是需要等待所有选择的设备都上传更新后才能进行全局聚合。
不同数量设备的性能比较
- (a)A3C-AFL和A3C-SFL具有相近的准确率,无设备选择的AFL准确率较低,且随着设备总数的增加,准确率变化不大。
[分析]有设备选择的算法只会调度通信质量良好、计算能力强的设备用于全局聚合,从而提高了FL的准确率。 - (b)随着设备总数的增加,A3C-SFL以及没有设备选择的AFL的完成时间逐渐增加;相反,A3C-AFL的完成时间减少。
[分析]设备总数增加后,A3C-SFL需要等待的更新数增加,等待延迟增加,导致FL全局模型聚合缓慢;没有设备选择的AFL可能调度的低质量设备数目增多,导致FL全局模型聚合缓慢;而A3C-AFL可以选择质量更高的设备用于全局聚合,导致FL全局模型聚合更快。