论文题目:DRL-Based Joint Resource Allocation and Device Orchestration for Hierarchical Federated Learning in NOMA-Enabled Industrial IoT
期刊:IEEE Transactions on Industrial Informatics
作者:Tantan Zhao, Fan Li, Senior Member, IEEE, Lijun He, Member, IEEE
关键字:分层联邦学习、资源分配、深度强化学习
1 摘要
分层联邦学习相比与集中的联邦学习能够减轻网络负担和通信延迟。但分层联邦学习的瓶颈是大规模设备参与情况下高昂的通信和电能开销。本文提出了一个基于深度强化学习的NOMA环境下联合资源分配与设备编排策略,实现模型准确率提高,且降低IIOT环境下分层联邦学习的开销。 该问题被形式化为多目标优化问题,在计算能力和传输功率的限制下同时最小化延迟、电能、模型准确率。 提出基于DRL的算法求解。
2 创新点
- 建模多目标优化问题,通过优化资源分配和设备编排,实现在有限计算和通信资源下准确率、延迟、能耗多目标的优化。
- 基于深度强化学习的多目标优化问题求解。
3 架构与流程
- 云广播初始模型到所有终端设备。
- 设备利用本地数据进行训练。
- 本地训练达到准确率阈值后,将模型上传至边缘进行边缘聚合。
- 边缘模型达到准确率阈值后,上传至云端进行全局聚合。
4 系统模型
4.1 本地模型
设备集合M, 设备索引m,数据Dm, 模型参数Wm,设备m本地模型的loss function:
本地准确率阈值 [0,1], 为了达到该阈值,需要的迭代次数:
κ is the constant related to learning task, m设备第i次本地迭代的模型更新:
终止条件为
cm一个样本的计算负载,rm 计算芯片的效用因子,计算时间和电能:
Tloc 次迭代后,终端m将模型上传到边缘服务器n,采用NOMA,可以允许多个设备在相同的channel同时传输。变量bm,n表示iot设备m和边缘服务器n的关联,等于1表示有关联,等于0表示无关联。pm表示m的传输功率,hm,n表示信道增益,|Sn|表示n个边缘服务器的终端数量。接收信号可以表示为:
信噪比SINR表示为:
传输速率:
通信延迟和电能消耗:
注:变量包括b、p
4.2 边缘聚合模型
边缘服务器n的聚合模型参数:
聚合后,边缘服务器n广播模型参数wn给所有终端执行下一轮本地模型训练。 这个过程不断迭代,直到边缘服务器n上的边缘模型符合精度要求为止。精度阈值为ξ,为了获得该阈值,边缘迭代次数可表示为:
μ是参数,边缘模型的迭代次数不仅和ξ有关还和有关。 MEC的计算能力比较强,电能也充足,因此模型聚合时间和广播消耗的电能在模型中可以忽略。在Tedge次边缘迭代后,Sn的总电能消耗可表示为:
延迟包括本地计算延迟和模型传输延迟
注:以最大为准,同步聚合
4.3 云聚合
边缘模型传输到云端进行全局觉和,边缘服务器n的延迟和电能消耗可以表示为:
dn标识模型大小,rn表示MEC server和远程云的传输速率。pn边缘n的传输功率 。云模型的参数w可以表示为:
云端聚合的电能和时间消耗被忽略。因此,一次全局聚合,系统范围的总电能和时间消耗为:
5 问题形式化
多目标,包括五个优化变量:
两个模型精度
多目标问题,通过加权转换成一个单目标问题:
λ和X为权重,λ为前两项权重,X为前两项和与后两项和的权重。
6 求解
非线性混合整数规划问题,提出 基于 DRL的 DDPG 方法求解。
状态空间
动作空间
层级奖励函数
基于DDPG算法的层级奖励函数
7 模拟实验
DDPG算法中采用5层全连接神经网络,激活函数为relu。没用真正数据集做验证,验证了HFL的特性。
比较方法:
1. JRA-DO-DDPG 提出的联合优化算法
2. JO-FL 只优化资源,optimizing computing resource allocation, local model accuracy, computation and communication latency.
3.HFEL-RA jointly optimizing edge association and resource allocation.
4.MADDPG jointly optimizes resource allocation and device orchestration to minimize delay, energy consumption and model accuracy.
模拟1
不同学习率下算法的聚合性能。
模拟2
每个优化目标对奖励的影响
模拟3
本地模型准确率和边缘模型准确率在不同权重下的效果。
模拟4
不同模型准确率要求对延迟的影响
不同模型准确率要求对电能的影响
对比
模拟5
不同算法中,延迟与电能的关系
8 总结
论文在层级联邦学习模型下建立了一个优化问题,通过联合优化设备计算频率、传输功率、设备和边缘关联关系、本地模型准确率、边缘模型准确率5个变量, 实现电能、时间,准确率的多目标优化。提出了基于DDPG的解法,相关问题可以参考该解法。 实验采用模拟实验,没用真实数据集。