Lyapunov Optimization Based Mobile Edge Computing for Internet of Vehicles Systems

Lyapunov Optimization Based Mobile Edge Computing for Internet of Vehicles Systems[1]

翻译:基于李雅普诺夫优化的车联网系统移动边缘计算

链接:https://ieeexplore.ieee.org/document/9895362

  • 二、介绍

背景:移动边缘计算与车联网结合。

方法:本文研究了一个计算资源有限的、MEC辅助的多车辆车联网系统,将车辆中的某些子任务卸载到MEC服务器,以实现系统的最大效用。该问题被形式化为一个具有长期约束的优化问题,通过李雅普诺夫优化方法将其进一步分解为每帧的决策问题。针对每帧问题中动作空间较大的问题,本文提出了Ly - MAPPO算法来解决,该算法引入了GCN来更有效地提取不同子任务之间的相互依赖关系。

  • 三、相关基础知识

信道增益

描述的是信道本身的衰减及衰落特性。收功率=信道增益*传输功率。一直处于静止状态就认为信道增益没有变。

  • 四、方法

系统模型

1、车辆边缘计算架构

基础设定:N辆车,速度为V0到VN-1。M个服务器,每个服务器覆盖L米,不重叠。

服务器:MEC控制器( MC )、MEC缓冲器( MB )和包含C容器的处理单元;

车辆:应用生成单元( AGU )、车辆控制器( VC )、等待队列( WQ )、本地处理单元( LPU )和本地发送单元( LTU )

系统工作:整个系统以时隙的方式运行。在每个时隙的开始,车辆n中的VC调度WQ中的子任务卸载到服务器或在本地处理。如果一个子任务需要卸载服务器,首先,VC会向服务器的MC发送卸载请求。然后MC在收到所有关联车辆的子任务后,如果它的MB容量不够,则拒绝。否则,在下一个时隙将子任务发送给MB,并根据先进先出( FIFO )原则,最多可以将MB中的C个子任务调度到处理单元中。

2、计算模型

(1)如果在本地处理,需要的时隙数: 。第一项为子任务到调度到LPU或LTU所花费的时隙。K表示计算的复杂度(CPU周期),d为计算所需输入数据的大小,f表示车辆中LPU的计算频率。

(2)如果卸载到边缘服务器,需要的时隙数=子任务到调度到LPU或LTU所花费的时隙+无线传输时间+在MB中的等待时间+在MEC容器中的计算时间(式子不在此展开)

3、传输模型

传输速率为: 。其中S表示与边缘服务器相连的车辆集合,g表示车辆服务器之间的信道增益,δ表示噪声,P是车辆的发射功率。

4、系统效用函数

应用处理延迟是车联网系统中最重要的指标之一。与线性DPR相比,对数DPR(data processing rate)保证了更好的比例公平性。因此,本文定义效用函数为

其中,α为车辆n的优先权重。R是车联网系统中车辆n在整个行驶过程中的DPR

5、目标和约束

P1是目标函数,(7a)(7b)(7c)(7d)是约束条件。C1,C2分别为WQs和MBs中队列的长期稳定性要求。在约束C3中定义了应用中子任务之间的相互依赖关系,C4中的P表示车辆n在每个时隙的能量。但是P1的求最优解有几个困难,比如必须但很难知道车辆移动过程中整个MEC环境的状态,包括不同应用的子任务之间的各种相互依赖关系、服务器中的缓冲条件和动态无线传输信道。此外,P1是一个非线性规划问题,求解P1的复杂度随着帧数和车辆总数的增加呈指数增长。因此,即使已知整个车联网系统条件和车辆信息,求解P1仍然是复杂的。

算法

1、基于Lyapunov的在线算法

引入了一个虚拟队列来应对( 7d )中的功耗约束。如果实际消耗的能量小于车辆想要提供的能量,虚拟队列就会减少,也就是说,可以为其他后续的子任务节省能量,然后将实际队列和虚拟能量队列结合。然后再去优化那个目标函数(得到P2),最后发现当用约束C1求解P2时,P1中的所有长期约束都可以得到满足。

卸载动作会导致很高的计算复杂度,非常耗时的。但是,可以通过与环境的不断交互学习获得在线决策能力。因此,本文提出了一个DRL算法来处理问题P2。

2、MDP的形式化

系统状态受不同应用、不同车辆策略和不同传输环境的影响。此外,前一状态和前一动作共同触发系统状态进入新的随机状态。同时,允许动作集仅取决于当前系统状态。因此,一般认为,变化的可用计算资源和时变的无线环境遵循马尔科夫性。为了描述动态IoV系统,提出了一种离散时间MDP模型。

3、李雅普诺夫算法指导的在线卸载DRL(深度强化学习)

本文提出了一种嵌入了GCN的算法。它由三个主要模块组成。AC模块生成候选调度动作,环境交互模块( EI Module )更新系统状态,策略更新模块( PU Module )通过反向传播更新整个网络。

  1. AC模块:每个进入系统的车辆都配备一个AC模块,由GCN和一些全连接层组成。GCN提取子任务间的依赖关系,与其他状态级联后,输入到后续的全连接层。
  2. 策略更新模块(PU模块):在训练阶段,本文设计了一种随机抽样更新策略,即在新一帧出现时,随机选择车辆上传数据。其他车辆在与环境交互后,只需要将奖励反馈给与其相连的服务器。然后备份服务器将所有的奖励集合作为最终的奖励来更新网络。(奖励函数反映了哪些行为对车联网系统有利)
  3. 环境交互模块:环境交互模块是车辆与服务器之间的交互模块。所有车辆根据生成的合法动作在WQ中调度自己的子任务,并更新自己的状态。随后,服务器更新其状态。

  • 五、个人小结

背景就是移动边缘计算和车联网结合。(1)先看目标:目标就是最小化系统效用,这个函数是跟对数DPR(data processing rate)有关,这里取对数是为了保证比例公平性。(2)接下来是约束,车辆中WQ(等待队列)不能太长,服务器中MB(缓冲器)容量有限制,应用中子任务之间有相互依赖关系,能耗不能超过能提供的最大能量。(3)最后是算法,算法这块很难懂,核心思想就是深度强化学习的图神经网络,然后用李雅普诺夫算法指导训练。我的理解是光是李雅普诺夫算法也能解决这个问题,但是任务之间不是独立的,有相互依赖关系(图),加上这个约束使计算复杂度很高,找到一个最优解非常耗时,然后作者就想到了深度学习,通过与环境的不断交互学习获得在线决策能力。

  • 参考文献

[1]   Lin J, Huang L, Zhang H, 等. A Novel Lyapunov based Dynamic Resource Allocation for UAVs-assisted Edge Computing[J]. Computer Networks, 2022, 205: 108710.

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值