论文题目:Distance-Aware Hierarchical Federated Learning in Blockchain-enabled Edge Computing Network
期刊:IEEE INTERNET OF THINGS JOURNAL
作者:Xiaoge Huang, Yuhang Wu, Chengchao Liang, Qianbin Chen, Senior Member, IEEE,
and Jie Zhang, Senior Member, IEEE
关键字:分层联邦学习、区块链、数据距离、学习效率
网络模型
1.架构
基于多层区块链融合边缘计算网络的分层联邦学习,包含云层、智能合约层、边缘层和ID(终端)层。
云层:云层由具有强大计算、通信、存储能力的云服务器组成,任务发布者是拥有FL任务的机构或企业。任务发布者发送任务信息,包括任务发布者的身份、任务描述和模型准确率要求给云服务器。云服务器监控任务训练过程并且当满足准确率需求后传递全局模型给任务发布者。FL任务的类别数量是Z。
智能共识层:智能共识层包含主链层和侧链层。主链层和侧链层基于Raft共识和HotStuff共识,用于记录全局模型和边缘模型。在该层中,每个边缘服务器对应于共识节点或领导者节点,每个云服务器对应于唯一的监控节点。在该场景下,边缘服务器和共识节点被称为边缘节点(EN)。每个共识节点存储他的边缘模型在侧链层并且验证来自其它共识节点的边缘模型。Leader节点管理主链和侧链层之间的传递,并且聚合边缘模型生成全局模型。 监控节点产生并且广播任务信息的区块 。(主链、侧链)
边缘层:这一层的主要元素是EN,具有固定的计算和通信能力。EN的部署位置靠近终端以减轻云端的通信压力。EN集合M。EN之间可以有重叠。在每个epoch,EN将聚合从本地上传的模型生成边缘模型。
ID层:由 相同分布的ID组成,具有有限的计算通信能力。集合N。在每个epoch,每个ID使用自己的数据训练一个本地模型并上传到相关的EN。
工作流程
1.任务发布:云服务器签署智能合约发布任务发布者的任务。此外,任务信息,例如除吃全局模型、任务训练配置、模型准确率要求将在智能合约中声明。然后,智能合约用这些信息创建主链初始交易。与此同时,每个EN签署这个智能合约并且获得SDK认证,成为一个共识节点。
2.Leader EN选择:共识节点中通过Raft共识算法选择一个leader。然后leader通过简单支付验证(SPV)锁定交易。与此同时,所有EN从主链下载全局模型并且广播到ID。此后,后续交易将被存储在侧链。
3.本地训练:每个epoch,IDs 从EN获得广播的全局模型后进行本地训练。本地模型训练的目的是找到一个最优函数:Fw:X-Y, x是本地训练数据,y是真实标签。本地模型输出Fw(x) 和y的差异将在训练过程中逐渐减小,然后最优模型w能够被得到:
G(Fw(x),y)是交叉熵损失函数,评估模型输出和真实标签的差异。基于SGD算法,第n个终端在第k次epoch的模型表示为wn(k),模型将被更新为:
ID不断训练指导满足精度要求。本文采用标签的偏斜分布来评价ID的数据分布qn(z),定义为每个类在训练数据集中的比例。
4.边缘模型聚合
n的本地模型上传到关联的EN m上,m聚合接收到的本地模型,产生边缘模型:
k+1轮边缘模型,Nm表示位于m下的ID集合,|Nm|是IDs的数量,xnm是ID n 和EN m的关联因子。
5.边缘模型验证
EN m以交易形式打包边缘模型生成区块并提交到leader。同时,leader发起验证请求给所有ENs。HotStuff共识在侧链中被使用,包含四个阶段既准备、预提交、提交、决策阶段。验证后,leader从侧链下载所有边缘模型,然后通过SPV锁定侧链。此后,后续交易将被存到主链上。
6.全局模型聚合
leader在第(K+1)次epoch通过Favg算法聚合边缘模型更新,生成全局模型wG(k+1):
此外,当模型准确率满足任务需求,云服务器发送停止训练信息给EN,ENs广播信息给覆盖的ID。然而,在上面的工作过程中仍存在一些问题,威胁HFL网络的效率。首先,IDS的异构引起Non-IID本地数据,导致地模型准确率。另外,资源限制的网络导致学习延迟增加。这些问题需要在HFL设计时考虑。
将模型误差定义为具有Non-IID数据的HFL网络的全局模型与具有IID数据的中心学习方法的中心模型之间的差异,
总数据距离u(x,q)
依赖数据关联和本地数据分布。
分析模型误差的上界。分析ID观策略和数据总距离的关系。 qn是分布,定义为每个类在训练数据集中的比例。
延迟分析
只考虑本地模型训练和上传。
1)设备n的本地训练延迟
训练延迟,β是由期望的全局模型决定的常量。ξ是本地模型准确率。β log2(1/ξ)代表本地训练达到经度ξ需要的训练轮数。Rn是一次训练需要的CPU周期数,Dn是数据集Dn的数量,fn是计算资源。
2)设备n的本地模型上传延迟
同步聚合,时间取决于最大,则:
问题形式化
ID关联和资源分配影响总数据距离和学习延迟。因此,学习效用u,总数据距离和学习延迟的甲醛和能够被用来评估联邦学习性能。(总数据距离)
n训练本地模型的电能消耗:
上传模型电能消耗:
联合优化ID关联、计算和通信资源分配,优化问题如下:
注:优化变量关联关系x、计算频率f、传输功率p,混合整数优化问题。主要是定义了总数据距离,用总数据距离和时间衡量效用。分析了模型误差和数据举例的关系,最大模型误差上界。
优化算法
基于dual-distance 提升学习性能。
假设EN能够获得ID的位置信息和数据分布。基于模型误差分析,学习延迟和总数据距离影响学习性能。减少学习小勇,IDn应该选和最近的EN m相关联。
分析得到关联x,带入得到f和p的优化问题,仍然非凸,由于非凸约束。转换该问题,分成两个问题,交替优化得到次优解。
模拟实验
实现了一个平台。