论文:Joint task offloading and resource optimization in NOMA-based vehicular edge computing: A game-theoretic DRL approach
基于 NOMA 的车载边缘计算中的联合任务卸载和资源优化:一种博弈论的 DRL 方法
代码地址:代码
A B S T R A C T:
车载边缘计算 (VEC) 成为开发新兴智能交通系统的一个有前途的范式。然而,有限的资源和大量的传输需求给实现具有严格DDL要求的车辆应用带来了巨大的挑战。本文提出一种基于非正交多址 (NOMA) 的 VEC 架构,其中异构边缘节点协作以进行实时任务处理。通过同时考虑边内和边间干扰,联合优化任务卸载和资源分配,推导出车辆到基础设施(V2I)传输模型,并制定协同资源优化(CrO)问题,目标是最大化服务比。将CrO分解为两个子问题,即任务卸载和资源分配。特别是,任务卸载子问题被建模为Exact potential game(EPG),提出一种多智能体分布式分布式深度确定性策略梯度(MAD4PG)来实现纳什均衡。资源分配子问题分为两个独立的凸优化问题,利用基于梯度的迭代方法和KKT条件提出最优解。最后建立基于真实世界车辆轨迹的仿真模型,进行综合性能评估,证明所提出解决方案的优越性。
1、Introduction
研究车载边缘计算 (VEC) 中基于非正交多址 (NOMA) 的实时任务卸载和异构资源分配的联合优化问题。为解决车载网络中数据传输和任务计算需求日益增长的挑战,提出一种基于多智能体分布式深度确定性策略梯度 (MAD4PG) 和潜在博弈论的分布式调度解决方案。
首先将任务卸载决策过程建模为精确势博弈 (EPG),证明了在该模型下纳什均衡 (NE) 的存在性和收敛性。通过最大化边缘节点的服务比,即在截止日期前完成任务的比例,提出一种基于NOMA的VEC架构。在这个架构中,车辆共享相同的带宽资源频率,并与边缘节点通信,任务可以上传到边缘节点进行计算。
为了优化资源分配,将问题分解为任务卸载和资源分配两个子问题。首先,任务卸载被建模为边缘节点之间的非合作博弈,并通过MAD4PG算法实现NE。其次,资源分配问题被进一步分解为两个独立的凸优化问题,基于梯度的迭代方法和Karush-Kuhn-Tucker (KKT) 条件推导出最优解。
通过真实车辆轨迹建立仿真模型,并设计多个指标评估算法性能。结果表明,提出的算法在任务处理效率和资源利用率方面优于现有的解决方案。这项研究首次在NOMA的框架下系统地探讨了VEC中的实时任务卸载和异构资源分配的协同优化问题,为车载网络中的智能交通系统(ITSs)提供了有效的解决方案。
2、System architecture
-
NOMA基础架构:
- 系统采用基于NOMA(非正交多址接入)的VEC(车辆边缘计算)架构,通过共享相同的带宽资源来实现多车辆通信。
- 车辆通过V2I(车辆到基础设施)通信将计算任务上传到附近的边缘节点。
-
SIC干扰消除机制:
- 边缘节点使用SIC(逐级干扰消除)技术,先解码强信号车辆的信号并取消干扰,然后解码弱信号车辆的信号,从而提高弱信号车辆的通信质量。
-
任务卸载与计算:
- 车辆的计算任务具有多样性,可能在数据大小、计算资源需求和截止日期上存在差异。
- 任务被随机分配到车辆,当任务上传到边缘节点后,节点会根据自身的计算能力(如CPU时钟频率)决定是否在本地执行任务,或通过有线连接将其迁移到其他节点。
-
传输功率分配:
- 传输功率由边缘节点分配,传输功率的增加会提高车辆的V2I传输速率,但也可能加剧边缘内和边缘间的干扰,影响其他V2I上行链路的通信质量。
- 边缘节点必须在功率分配时考虑其他节点的功率分配情况,以减少相互干扰。
-
动态工作负载管理:
- 由于任务的随机到达和车辆的时变分布,边缘节点可能面临工作负载不平衡的情况。
- 为了优化任务处理效率,当某个边缘节点过载时,可以将任务迁移到其他计算资源较多的节点,但这种迁移会增加任务的服务时间。
-
边缘节点之间的有线连接:
- 边缘节点通过有线网络连接,以支持任务的迁移和协同处理。
举例:如上图,车辆v1和v2通过V2I通信上传他们的任务。因为边缘节点e2和车辆v1之间的V2I通道条件比车辆v2和v3更好,因此首先将其他信号视为噪声来解码车辆v1的信号。然后,在解码车辆v2和v3的信号时,边缘节点e1的信号可以被边缘节点e2取消。然而,在V2I传输过程中,车辆v1的信号可能会受到车辆v2的干扰;这种干扰被称为“边缘内干扰”,因为车辆v1和v2位于同一边缘节点e2的无线电覆盖范围内。另一方面,车辆v3的信号可能会受到车辆v1的干扰,其他边缘节点的干扰被称为“边缘间干扰”。此外,很明显,边缘节点e3中有三个任务(即k1,k2和k3),但在边缘节点e1中只有一个任务k4。
假设边缘节点e1的计算资源明显多于边缘节点e3的计算资源。任务k1应该在有线网络上迁移到边缘节点e1,以便它可以在更短的时间内服务。如上所述,通过设计用于实时任务卸载和异构资源分配的有效分布式调度机制来优化整体系统性能至关重要但难以利用边缘节点之间的协作通信和计算。
3、Problem formulation
(1)V2I transmission model
V2I 传输模型如图 2(a) 所示,边缘内和边缘间干扰基于 NOMA 原理建模。
(2)Task offloading model
(3)合作资源优化问题(CRO)
4、Proposed solution
通过解耦两个子问题,即任务卸载(P1)和资源分配(P2)来解决CRO问题。将P1建模为边缘节点间的非合作博弈,证明了它是一个具有NE存在性和收敛性的EPG。P1设计了在每个边缘节点上实现的MAD4PG,用于任务卸载以实现NE。P2是分为两个独立的凸优化问题。基于梯度迭代法和KKT条件推导异构资源分配的最优解来处理P2。两个解决方案之间的相互作用描述如下。首先,基于MAD4PG,以局部系统观测值为输入,提前确定任务卸载决策;然后,根据任务卸载决策,通过最优解得到资源分配。在基于noma的VEC环境中,利用任务卸载和资源分配的联合作用,通过设计的势函数获得边缘节点的奖励。该程序将继续进行,直到MAD4PG的培训完成。
1. 任务卸载问题 (P1) - 边缘节点间的非合作博弈
-
非合作博弈:P1 被建模为边缘节点之间的非合作博弈。这意味着每个边缘节点在决定是否接受来自车辆的计算任务时,会根据自己的利益进行决策,而不会与其他边缘节点进行合作。
-
EPG (Exact Potential Game):这种博弈被证明是一个具有精确势函数的博弈(EPG),这意味着在这种博弈中存在一个势函数,使得每个边缘节点的策略变化带来的收益等于势函数的变化。EPG 的一个重要性质是它具有纳什均衡(NE)存在性和收敛性,意味着博弈最终会达到一个稳定的状态,其中每个边缘节点都不会通过单方面改变策略而获得更多的收益。
-
MAD4PG 算法:为了解决 P1,设计了一种基于多智能体深度确定性策略梯度(MAD4PG)的算法。MAD4PG 算法在每个边缘节点上独立运行,利用局部的系统观测值作为输入,来做出任务卸载决策。通过反复训练,边缘节点可以学习到最佳的任务卸载策略,最终实现纳什均衡(NE)。
2. 资源分配问题 (P2) - 凸优化
-
问题分解:P2 是一个关于如何为接收的任务分配计算资源的问题。该问题被分解为两个独立的凸优化子问题,这两个子问题可以分别独立求解。
-
梯度迭代法和 KKT 条件:为了解决 P2,使用了梯度迭代法和 Karush-Kuhn-Tucker (KKT) 条件。这些方法是经典的优化技术,用于推导出异构资源(即不同的计算和通信资源)的最优分配方案。通过这些方法,可以找到满足约束条件下的资源分配的最优解。
3. 任务卸载和资源分配的联合作用
-
决策顺序:首先,通过 MAD4PG 算法,基于局部系统观测值提前确定任务卸载决策。这一步是在每个边缘节点独立完成的,且基于该节点当前的状态(例如负载、可用计算资源等)。
-
资源分配:一旦任务卸载决策确定,系统将根据这些决策来进行资源分配。资源分配的过程基于之前通过凸优化问题 P2 求得的最优解。
-
奖励计算:在基于 NOMA 的 VEC 环境中,任务卸载和资源分配的联合作用会对边缘节点的整体性能产生影响。通过设计的势函数,可以计算出边缘节点在这一过程中获得的奖励。势函数作为一种评估标准,帮助系统逐步优化任务卸载和资源分配策略。
4. 训练过程
-
迭代优化:这个过程会不断重复,首先通过 MAD4PG 算法确定任务卸载策略,然后进行资源分配,计算奖励,并根据奖励调整策略。这个迭代过程会持续进行,直到 MAD4PG 的训练完成,达到稳定状态。
Problem decomposition
首先在每个时隙将CRO分解为几个问题。由于在𝑡时刻的变量𝐏𝑡、𝐐𝑡和𝐂𝑡是相互独立的,并且由于变量不重叠,这四个约束是可分离的,因此可以将问题分解为两个子问题,
(1)任务卸载:关于𝐐𝑡的第一个子问题P1涉及边缘节点的任务卸载决策
(2)资源分配:第二个子问题P2涉及到 关于𝐏𝑡的传输功率分配和关于𝐂𝑡的计算资源分配,其表述如下:
可以看出,Eq.(20)中的变量𝐏𝑡和𝐂𝑡是相互独立的。约束C7和C8是可分离的,因为变量不重叠。因此,子问题P2可分为两个独立的问题,即传输功率分配和计算资源分配
MAD4PG for task offloading
MAD4PG模型由distributed actors, a learner, a NOMA-based VEC environment, and a replay buffer组成
𝐽 distributed actors通过与环境并发交互来产生重放体验。𝑗th actor中的本地策略网络的参数复制自learner的本地策略网络。每次迭代初始化的系统状态用𝒐0表示。基于对系统状态的局部观察,得到𝑗th actor中边缘节点𝑒在𝑡时刻的任务卸载动作
然后,在基于NOMA的VEC环境中执行边缘节点的动作,获得每个边缘节点的奖励。最后,交互体验包括系统状态、边缘节点动作、边缘节点奖励和下一个系统状态存储到重放缓冲区中。迭代将继续,直到learner完成。distributed actors的过程如算法2所示
基于凸优化的资源分配
(1) 传输功率分配:原文将上图中问题P4转化成标准凸优化问题P6
(2)计算资源分配:与传输功率分配类似,我们首先在P8中引入拉格朗日乘子,P8的对偶问题可表示为p10,再根据KKT条件,解方程组得到资源分配最优解:
实验
附录:
Exact potential game介绍