强化学习节点选择

最新推荐文章于 2024-10-29 09:06:39 发布

熊啾啾*

最新推荐文章于 2024-10-29 09:06:39 发布

阅读量552

点赞数

文章标签：分布式云计算

本文链接：https://blog.csdn.net/qq_46034128/article/details/134887304

版权

·1.Trust-driven reinforcement selection strategy for federated learning on IoT devices

本文提出了一种基于双深度Q学习的选择算法DDQN-Trust，该算法同时考虑了物联网设备的信任值和功率水平，从而进行相应的调度规划。设计了边缘服务器与物联网设备之间的信任建立机制。信任机制旨在检测在本地训练期间过度利用或未充分利用其资源的物联网设备。采用改进的Z得分统计方法来识别表现出过度消耗或不足消耗等异常行为的物联网设备。这对于检测那些没有投入足够资源来服务于联合学习任务的设备以及那些执行额外计算以实现某些恶意目标的设备至关重要。

本地状态如下：

Γj为算法1中计算出的物联网设备j的信任值，χj为j的能量态。

动作空间：

σj = 1指参数服务器向物联网设备j分配训练任务；否则σj = 0表示，lχ j指物联网设备j下载、训练和上传模型所需的能量，ξj指将模型从参数服务器传输到设备j并运行模型的成本。

奖励：

寻找π∗的Q-learning（QL）算法的基本目标是更新一个状态-动作对的Q值，Q（s，a），它编码在状态s中采取行动a的预期未来折扣奖励。当网络参与者数量的增加时，DeepQL（DQL）算法开始解决高维问题。

2 TrustAugmented Deep Reinforcement Learning for Federated Learning Client Selection

扩展了第一篇的工作：(1)在COVID-19场景中调整和测试我们的解决方案；(2)将TL方法集成到我们的解决方案中，使服务器间知识共享我们的解决方案，使服务器间知识共享能够处理某些地区的数据稀缺问题。

状态：信任值，本地模型所需时间，归一化的资源量动作：是否选择设备，下载训练上传模型所需时间，所需资源量，传输成本。

设备m的奖励Ψ m：与时间，资源量（如CPU、RAM、BW、DS）和成本有关

Q-learning算法寻找π *，当参与者数量增加时，问题变得高度维度化，深度Q网络（DQN）算法使用经验（s，a，R（s，a），s）进行训练。

· 3 A Multi-agent Reinforcement Learning Approach for Efficient Client Selection in Federated Learning

提出了FedMarl，一个基于MARL的FL框架，它联合优化了模型精度、处理延迟和通信效率。服务器收集损失，并通过停止具有高损失的设备上的剩余训练过程来执行早期拒绝。

问题表述：

处理延迟和通信成本：

Acc（T）表示全局模型测试准确度。系统优化问题：

状态st n：§Lt n表示探测损失，Hp t，n探测训练延迟，Hut，n模型上传的延迟，通信成本Btn，数据量Dn。

动作：智能体n决定客户端设备n是否应该更早地终止。§atn∈ [0，1],atn = 0指示客户端设备将在探测训练之后终止。

奖励：奖励函数应当反映在执行由MARL代理生成的客户端选择决策之后测试准确度、处理等待时间和通信成本的变化。§

第t轮训练的奖励：

§Ht是第t轮的处理延迟：

Hp t，n表示产生所有探测损失所需的总时间，Hrest t，n是客户端设备n完成本地训练过程所需的时间，Hut，n模型上传的时间。

4Proximal Policy Optimization-based Federated Client Selection for Internet of Vehicles

策略梯度的深度强化学习算法（DRL）

本文提出了一种基于邻近策略优化（PPO）的客户端选择方案。首先将联邦客户机选择问题表示为马尔可夫决策过程（MDP），并为MDP开发了一个基于PPO的算法。

状态：Sj = {wdj，fj，ej，rj}，权重差异、CPU周期频率、剩余能量和数据速率。

动作：Aj = {0，1}，1表示客户端j被选中，而0表示未被选中。

奖励：

从K台志愿车中选择N台，归一化的本地数据质量、能量消耗和延迟。

权重差异是客户端的本地模型权重与全局聚合模型权重之间的相对差，并且用于评估本地数据质量。

数据率：在数据通信中，一个数据链路上单位时间内传输的数据量。

·5 Adaptive Client Selection in Resource Constrained Federated Learning Systems

采用基于双深度Q网络（DDQN）的DQL来做出选择自适应客户端

提出一个经验驱动控制算法,自适应地选择客户端。自适应客户选择机制在MEC可以建模为一个马尔可夫决策过程, 采用基于双深度Q网络（DDQN）的DQL来做出选择自适应客户端。

状态：cpu周期频率、能量单位和无线带宽的限制。

动作： Ak = 1表示客户端k参与这一轮来训练本地模型。

奖励函数：奖励函数应与客户端数量成正比，与能量消耗和训练延迟成反比，E是MEC系统在每次迭代中消耗的总能量单位

为了找到最佳决策，通常使用标准Q-Learning，Q-Learning用动作-状态对构造一个不断更新的Q-值表，然后查找Q-表以获得最佳决策Q（s，a）。

6 Two-Phase Deep Reinforcement Learning of Dynamic Resource Allocation and Client Selection for Hierarchical Federated Learning

资源分配和客户端选择计算和通信建模深度强化学习

提出了一种新的两阶段深度确定性策略梯度框架，称为“ TPDDPG”，平衡学习延迟和模型精度。设计一种基于 DDPG 的方法来学习参与客户端的选择、 CPU 配置和客户端的传输功率。HFL 系统对每个云聚合进行 r1轮边缘聚合。在边聚合中，进行资源分配和客户端调度决策。

优化问题：

αtn = 1，表示客户端n被选择参与第t轮边聚合，ft n CPU频率，p表示传输率，Zt k表示在第t个边聚合中与边服务器k关联的客户端集合，btnk 表示带宽分配比。

（1）基于DDPG的解决方案：决定参与客户端的选择、传输功率控制和CPU配置

状态S：电池能力水平，ht nk是信道增益，最近轮次

动作A： at = {α t n，ft n，pt n，n} ，是否被选择ft n CPU频率，传输率

奖励r：

，Ot = λ|Ωt|- Tt，ξ是调谐参数，φ罚值

（2）掉队者感知客户端关联和带宽分配：解决客户端集合和带宽分配比

首先，我们初始化客户端关联决策Zt *，将每个所选客户端连接到具有最强信道增益的边缘服务器。我们反复调整客户端关联以最小化掉队者的学习延迟，直到不再允许客户端关联调整。

7基于DRL的联邦学习节点选择方法_贺文晨

考虑异构节点的训练质量和效率，筛选恶意节点，在提升联邦学习模型准确率的同时，优化训练时延。

首先构建系统模型，其次提出最优化问题模型，然后将问题模型构建为马尔可夫决策过程，并设计基于分布式近端策略优化的节点选择算法，选择合理的设备集合。

本文使用测试数据集的损失函数之和表示测试准确率。FL 每一次模型聚合的总时延包括数据在终端设备上的训练时延和在链路上的传输时延。面向节点选择的准确率最优化问题模型可以表示为，使本次训练的准确率最优，即总损失函数最小。

代理获得的动作、奖励及环境状态组成批量样本来更新演员−评论家（AC）网络。

状态：t 时刻环境状态，任务i 的信息， Cti 表示终端设备在t 时刻可用于 FL 任务i 的资源， H t−1i 表示终端设备在上一时刻的数据集， at−1i表示上一时刻的节点选择方案。

动作:节点选择方案建模为一个 0-1 二进制向量, β id=1表示编号为d 的设备在此次节点选择中被选中。

奖励：基于准确率设计奖励函数，并设置最大时延作为每步动作选择的约束，

令 Hz,d={Xz,d,Yz,d }表示数据集。损失函数L。ω表示当前要训练的模型的权值

全局 PPO 网络中包含 2 个 Actor 网络（Actor1 和 Actor2）以及一个 Critic 网络。Actor1代表当前最新的策略π 并负责指导各线程与环境交互。Critic对当前策略进行评判，并实现参数更新。使用 Actor1 的参数对 Actor2进行更新。

准确率、延迟、信任度（如何定义）、开销（训练任务总成本最低 p有关，总价格最小）

任务发布者，选择哪几个客户端进行训练，支付的总成本最少。

8 AUCTION Automated and Quality-Aware Client Selection Framework for Efficient Federated Learning

面向高效FL的自动化和质量感知的客户选择框架AUCTION，考虑样本的数量，数据标签和数据分布方面的数据质量，所需价格，并在有限的预算内来选择客户端。将客户选择策略编码到神经网络中，采用强化学习来自动学习客户选择策略。

设计了策略网络作为客户端选择代理，策略网络被设计为编码器-解码器结构，其中编码器将每个客户端的状态映射到向量表示，解码器然后基于向量表示相应地生成所选客户端的输出。

状态：客户端Ci的特征xi={di,qli,qdi,bi},样本的数量,数据标签和数据分布方面的数据质量,所需价格。用每个客户Ci的局部数据集上的全局模型的损失来表示数据标签质量qli。客户端Ci的局部模型的损失来表示数据分布质量qdi.

动作：给定一组大小为N的候选客户端C，客户端选择代理需要选择客户端的子集而不超过预算B。f(a)<B

奖励：客户选择策略的目标是使全局模型快速收敛到准确可靠。因此，我们将奖励r设为

策略：策略网络将任何状态和学习预算作为输入，并输出可行的客户端选择动作。

9An Efficiency-boosting Client Selection Scheme for Federated Learning with Fairness Guarantee

无强化学习，有优化问题考虑模型交换时间和公平性的客户端选择

将保证公平性的客户端选择问题建模为Lyapunov优化问题。提出了一种基于C2MAB的客户端与服务器之间模型交换时间估计方法，并在此基础上设计了一种保证公平性的RBCS-F算法进行求解。

模型交换时间与客户端的计算能力、运行状态以及模型更新的带宽分配有关。

客户选择问题：在公平、可用性和最大客户端数量的约束下，优化时间跨度。

10 Oort Efficient Federated Learning via Guided Participant Selection

统计效率：为达到目标精度所需的回合数由数据决定

系统效率：每一轮训练的持续时间由速度决定

Oort优先考虑使用那些提供最大效用的数据，具有快速运行训练能力的客户。为了达到统计和系统效率的最佳点，我们进行更长的训练回合以找到具有更高统计效用的客户端。然后采用在线探索-利用策略，从高效用客户端中随机选择参与者。

如果客户长时间被忽视，我们将逐渐增加她的效用。我们不是选择具有top-k效用的客户端，而是允许一个关于界限效用的置信区间c，接纳效用大于顶层第((1-ε) × K)个参与者的 c%的客户。在这个高效用资源库中，Oort 以与其效用成比例的概率对参与者进行抽样。

11· PyramidFL：A Fine-grained Client Selection Framework for Efficient Federated Learning

Oort的改进

PyramidFL中的参与者可以通过利用空闲时间来增强其数据效用，即训练具有更多数据样本的局部模型，并且通过丢弃不重要的模型参数来减少其计算和通信时间，从而增强其系统效用。需要优化系统效率和数据效率。丢弃概率和局部训练迭代可以求出。效用函数与数据样本和减少更新后所需时间有关。选择按其统计和系统效用排序的顶级��×��参与者。为了引入新客户，随机探索（1−��）×��以前没有被选择过的客户。

12· Participant Selection for Hierarchical Federated Learningin Edge Clouds

端边云结构选择边缘服务器作为参与者固定两个变量，求解另一个，迭代重复

用一些中间层聚合器（或称为组领导者）来聚合来自工人的本地模型更新，并将组模型更新发送到参数服务器。每个模型需要从边缘服务器中选择一个参数服务器、几个组长和一定数量的工作者共同执行HFL。在满足资源约束的前提下，最小化所有模型的总学习成本。 xti，j、yti，j、zti，j表示是否选择边缘服务器vi作为参数服务器、组领导者或工作者的决策。在每一阶段中，专注于两个固定的情况下求解xt i，j，yt i，j和zt i，j的决策变量中的一个。迭代地重复这三个阶段，直到满足某些特定条件。

13· A Decentralized Federated Learning Framework via Committee Mechanism With Convergence Guarantee

无服务器联邦学习框架根据评分选择委员会客户

提出了一种新的无服务器联邦学习框架CMFL，设计了两种相反的选择策略来筛选上传的局部梯度，通过选举策略替换委员会成员。

评分系统被设计为比较两个梯度的欧氏距离，其中上传诚实梯度的客户端可以获得较高的分数。选择策略（根据评分选择局部梯度）选举策略（根据评分选择委员会客户端）

14.Participant_Selection_for_Federated_Learning_With_Heterogeneous_Data_in_Intelligent_Transport_System

无具体实现只是客户端选择时考虑选择率

改进的联邦学习方法Newt，它包括一个新的客户端选择效用，突出显示了选择器上的反馈控制。实现了对选择频率的控制，作为客户端选择方法设计的一个新维度。为了在一轮中达到最大准确度，我们选择能够提供最大模型权重变化的客户端。包含大量数据的客户端往往会提供更多的信息，导致更大的权重变化。将与数据大小相关的比率添加到权重变化来公式化客户端k的效用。

15AnIncentiveAuctionforHeterogeneousClientSelectioninFederated_Learning

本文以社会成本最小化为目标，通过采购拍卖的方式研究了激励机制设计。本文考虑在不同的全局迭代中选择和调度客户端以保证FL作业的完成。AFL首先将社会成本最小化问题分解为一系列基于全局迭代次数的优胜者确定问题（WDP）。为了求解每个WDP，AFL调用贪婪算法来确定获胜者，并调用支付算法来计算获胜者的报酬。主要思想：Awinner基于贪婪策略迭代地选择调度。在每次迭代中，Anwinner选择一个客户端。Awinner输出优胜者集合S，对客户端的支付P，成本cost。

16 Node Selection Toward Faster Convergence for Federated Learning on Non-IID Data

无强化学习，无问题表述

非i.i.d数据样本引起全局和局部目标之间的差异，提出了最优聚合算法，找到参与节点在每轮全局更新中的最优局部更新子集。

提出了一种概率节点选择框架（FedPNS），根据最优聚合的输出动态改变每个节点被选择的概率。

17JointlyOptimizingClientSelectionandResourceManagementinWirelessFederatedLearningforInternetofThings

在早期的全局迭代中拥有更少的客户端，而在后期的全局迭代中拥有更多的客户端可以获得更高的模型精度。本文提出通过选择合适的客户端，并在CPU频率和传输功率方面分配适当的资源，动态调整和优化最大化选定客户端数量和最小化客户端总能耗之间的权衡。选择消耗较少的。假设所有客户端使用它们的最大CPU频率和传输功率。P0可以转换为

ηi = α(Ecomp i + Eup i + 1) − 1.如果没有选择客户端，则不能计算等待时间twait i。为了最小化P1的目标，具有较小ηi的客户将具有较高优先级被选择参与训练过程以最小化P1的目标。

1)所有客户端都基于ηi的值按升序排序。

2)每个客户端i将被迭代地评估以查看是否所有现有的所选客户端仍然能够满足期限，如果可以满足期限，则客户端i将被选择，即，xi = 1。

3)迭代将继续进行，直到I中的所有客户端已经过评估。

18 Fuzzy Logic Based Client Selection for Federated Learning in Vehicular Networks

无强化学习，使用模糊逻辑控制

一个基于模糊逻辑的客户端选择方案来选择合适的客户端。该方案基于模糊逻辑方法，综合考虑了本地样本数量、样本新鲜度、计算能力和可用网络吞吐量。参与者基于模糊逻辑算法来评估他们作为FL客户的分数，选择分数较高的客户端。

19 Towards Understanding Biased Client Selection in Federated Learning

我们提出了Power-of-Choice，一个通信和计算效率高的客户端选择框架。部分客户参与：这可能加剧数据异构性的不利影响。有偏的客户端选择策略可以通过优先选择具有较高局部损失值的客户端来加速异构环境中的误差收敛.对候选客户端集进行采样：中央服务器d个客户端的候选集合A进行采样，使得客户端k以概率pk被选择。选择最高损失客户端：根据候选集合A，中央服务器通过选择具有最大值Fk（w（t））的m = max（CK，1）个客户端。

20ClientSelectionforFederatedLearningwithHeterogeneousResourcesinMobileEdge

FedCS根据客户端的资源条件主动管理客户端的同时高效地执行FL，FedCS解决了具有资源约束的客户端选择问题，这允许服务器聚集尽可能多的客户端更新，并加速ML模型中的性能改进。

客户端选择步骤中的目标是允许服务器在指定的截止日期内聚集尽可能多的客户端更新。客户机选择由以下关于最大化问题来公式化：