【论文解析】D3PG in MEC 移动边缘计算中具有约束混合动作空间的任务划分和卸载的狄利克雷深度确定性策略梯度算法

D3PG: Dirichlet DDPG for Task Partitioning and Offloading with Constrained Hybrid Action Space in Mobile Edge Computing

移动边缘计算中具有约束混合动作空间的任务划分和卸载的狄利克雷深度确定性策略梯度算法


一、摘要 Abstract

I、内容 Content

移动边缘计算(MEC)通过在网络边缘提供计算资源来减少物联网数据处理的服务延迟,被认为是一种很有前途的范例。在这项工作中,我们共同优化了在多个物联网设备和多个边缘服务器动态环境中进行计算卸载的任务划分和计算能力分配。我们将该问题表述为具有约束混合动作空间的马尔可夫决策过程,现有的深度强化学习(DRL)算法无法很好地处理该问题。因此,我们开发了一种新的深度强化学习,称为Dirichlet深度确定性策略梯度(D3PG),它建立在深度确定性策略梯度(DDPG)的基础上来解决这个问题。该模型可以学习解决多目标优化问题,包括最大限度地提高到期前处理的任务数量,最大限度地降低能源成本和服务延迟。更重要的是,D3PG可以有效地处理约束分布-连续混合动作空间,其中分布变量用于任务划分和卸载,连续变量用于计算频率控制。此外,D3PG可以解决MEC和一般强化学习问题中的许多类似问题。大量的仿真结果表明,所提出的D3PG算法优于目前最先进的方法。

II、总结 Summarize

  1. 联合优化N个物联网设备、M个边缘服务器的动态环境下的任务卸载和资源分配;
  2. 将问题表述为具有约束混合动作空间的马尔可夫决策过程;
  3. 建立在DDPG上的D3PG;
  4. 解决多目标优化问题,最大限度处理到期前任务,最大限度降低能耗和延迟;
  5. 可有效处理约束分布-连续混合动作空间;
  6. 联合优化了任务划分、任务卸载和计算频率控制;
  7. 针对多个联合优化问题,提出了一个可配置的优化目标,以端到端方式优化多个目标,不需要像现有方法那样进一步优化。

III、 附言 Postscript

  • “到期前”是指所有子任务都在最大容忍的延迟时间之内完成的情况。换句话说,如果最后一个子任务在截止时间之前被处理完成,那么这个任务就被视为成功处理;否则,它会被认为是过期的,并且是未能响应用户的失败。

IV、关键词 Keywords

Mobile Edge Computing, Task Partition, Deep Reinforcement Learning, Computation Offloading, Energy efficiency, TD3, DDPG, Dirichlet
移动边缘计算、任务分区、深度强化学习、计算卸载、能效、TD3、DDPG、Dirichlet


二、介绍 Introduction

I、总结 Summarize

  1. 移动边缘计算(Mobile Edge Computing, MEC)的提出是为了解决近距离的任务,减轻核心网的负担。但MEC服务器配备的计算资源比中央云服务器少得多;因此,任务卸载和调度优化对于开发有限的资源,提高服务质量和降低成本至关重要。
  2. 将一个卸载任务切成小的子任务,这些子任务可以在异构边缘服务器上处理。因此,将任务切片为小的子任务并卸载到边缘服务器上,可以充分利用边缘服务器上有限的计算能力。
  3. 以端到端方式解决联合优化问题,共同优化决策变量,处理一个混合动作空间。

II、贡献 Contributions

  1. 利用D3PG模型优化移动边缘计算(MEC)资源分配,提高服务质量。
  2. 生成分布式连续混合动作空间,其中每项动作既包括划分和卸载任务的狄利克雷分布分布,也包括用于计算能力(频率)控制的连续组件。
  3. 提出了可配置的优化目标,以端到端的方式同时优化多个目标,无需进一步的手动优化,这一点与现有的方法形成鲜明对比。

三、系统模型 System Model

I、模型示意图 Model Figure

II、系统环境 System Environment

  1. 在时间间隙t内有N个IoT用户集合\mathcal{U}=\{u_1,\ldots,u_N\}和K个服务器集合\mathcal{M}=\{m_{1},\ldots,m_{K}\}
  2. 第i个用户的任务描述为\Omega_i=\{\mathcal{D}_i,\mathcal{C}_i,\Delta_{max}\},Di, Ci,∆max分别表示任务的数据大小,计算任务所需的CPU周期以及任务的最大容忍延迟(过期时间);
  3. 一个任务被划分为更小的子任务\boldsymbol{\xi}_i=(\xi_{i,1},\ldots,\xi_{i,j},\ldots,\xi_{i,K}),j为子任务的索引且子任务的个数不大于MEC服务器的个数K;
  4. 所有子任务的时间成本可表示为向量\boldsymbol{\delta}_i=(\delta_{i,1},\ldots,\xi_{i,j},\ldots,\delta_{i,K}), i≤N, j≤K;
  5. 子任务的时间开销描述\delta_{i,j}=\delta_{i,j}^T+\delta_j^R+\delta_j^Q+\delta_{i,j}^C,分别为分别为子任务的传输时间、排队时间、计算时间和在服务器上的剩余运行时间;
  6. 传输速率描述为\zeta_{i,j}=\mathcal{B}_jlog_2(1+\frac{P_{i,j}h_{i,j}L_{i,j}}{N_0}),式中,Bj为带宽,Pi, j为传输功率,hi, j, Li, j, N0分别为瑞利衰落,路径损耗,噪声功率。
  7. 如果所有子任务都在最大容忍延迟之前完成,则认为任务Ωi在相应的截止日期之前完成。换句话说,如果最后一个子任务在过期时间之前已经处理完毕,则该任务处理成功;否则,它被认为是过期的,并且无法响应用户。当任务在相应的截止日期之前完成时,我们可以给任务分区和卸载协调器指定一个正标志(+1);当不能及时响应用户时,将此标志设为0,即\left.\Lambda=\left\{\begin{array}{ll}+1,&\quad\text{if}max(\boldsymbol{\delta}_i)\leq\Delta_{\max}\\0,&\quad\text{otherwise}.\end{array}\right.\right.

  8. 每当agent进行任务分割和任务卸载操作时,都会得到一个能量成本作为惩罚,因此任务过期时就会得到负反馈,总能耗描述为传输消耗的能量与计算消耗的能量总和,即E_i=E_i^T+E_i^C

III、问题描述 Problem Formulation

  1. 优化目标是在任务到期前处理的任务数量最大化和能耗最小化。每个动作包含两个向量,Φi用于任务划分,Fi用于频率控制。β1、β2、β3为归一化因子。      \begin{aligned} \max_{a_{i}\in\pi} \sum_i^N\beta_1\Lambda-\beta_2(E_i^T+E_i^C)-\beta_3\max(\boldsymbol{\delta}_i) \\ \text{s.t.} \delta_{j}^{R}+\delta_{j}^{Q}+\delta_{i,j}^{T}+\delta_{i,j}^{c}\leq\Delta_{\max}, \\ f_{i,j}^{k}\leq f_{j}^{max},f_{i,j}^{k}\in\mathcal{F}_{i}, \\ a_{i}=\{\Phi_{i},\mathcal{F}_{i}\}, \\ \Phi_{i}=\{\phi_{0},\ldots,\phi_{j},\ldots,\phi_{K}\}, \\ \sum_{j=0}^{K}\phi_{j}=1,0\leq\phi_{j}\leq1 \end{aligned}
  2. 为解决在减少能源消耗和增加已完成任务的数量之间取得平衡不灵活的问题,以最大限度地提高预期的累积回报,提出式子\max_{a_i\in\pi}\mathbb{E}\left[\sum_iR_i(s_i,a_i)\right],其中si为当前系统观测值,π为策略,策略将观察状态映射到动作上。
  3. 每个动作和对应的奖励表述为\begin{aligned} R_{i}(s_{i},a_{i})& =\alpha w_{1}\Lambda-(1-\alpha)w_{2}log(E_{i}) \\ &-w_{3}log(\max(\boldsymbol{\delta}_{i}))+\mathcal{C}, \end{aligned}其中α是允许网络提供者根据自己的兴趣调整奖励函数的权重;w1、w2和w3是归一化项,C是鼓励agent保持MEC服务器稳定性的小激励。

四、 Dirichlet深度确定性策略梯度 D3PG

I、模型架构 Model Architecture

  1. 开发一个Actor-Critic的DRL模型,具有基于值和基于策略的强化学习的优点。
  2. 该系统由三部分组成:MEC网络、MEC环境和DRL代理。
  3. Dirichlet深度确定性策略梯度(D3PG)的模型,建立在深度确定性策略梯度(DDPG)的基础上。
  4. 处理连续的动作空间,并满足MEC任务划分的约束。
  5. 一个任务可以划分为K个子任务,子任务的大小可以表示为\Phi_i=$ $\{\phi_1,\ldots,\phi_j,\ldots,\phi_K\},φj表示第j个子任务中包含的完整任务的百分比。
  6. 采用狄利克雷分布来捕获约束动作。

II、开发模型 Developed Model

A. 学习过程描述 Learning Process

  1. 首先,智能体根据环境的观察结果采取行动。
  2. 其次,环境向DRL代理提供反馈和下一个状态。
  3. 然后,代理将当前交互数据存储到经验回放缓冲区中,用于训练模型。
  4. 每个交互记录包括当前状态、动作、奖励和下一个状态,表示为元组<<s_t,a_t,r_t,s_{t+1}>
  5. DRL代理不断与环境交互以生成训练数据集。
  6. 之后,智能体从经验回放缓冲区中提取训练数据,训练DRL模型内部的学习网络。
  7. 每个网络都有一个备份副本,称为目标网络,目标网络用于稳定训练。

B. 动作 Action

  1. 每个动作有两个向量,一个向量\mathbf{\Phi}_{i}=\{\phi_{1},\ldots,\phi_{j},\ldots,\phi_{n}\},根据边缘服务器将任务划分为子任务,另一个向量\mathcal{F}_i=\{f_0,\ldots,f_j,\ldots,f_n\},其中n为边缘服务器的数量。
  2. DRL指定要卸载到第j个边缘服务器的任务的pj百分比;建议服务器使用第j个边缘服务器的最高CPU频率的fj百分比来处理子任务。所有元素(动作的子组件)都是连续的,范围为[0;1]。
  3. 对于每个具体的决策动作,可描述为\begin{aligned}a_i&=\{\Phi_i,\mathcal{F}_i\}\\\mathrm{s.t.}&\quad0\leq\phi_j\leq1,\sum_j^n\phi_j=1\end{aligned},任务分割需满足约束\sum_j^n\phi_j=1,即切片任务的比例之和必须等于1;且\phi_j=0时第j个边缘服务器不接收卸载子任务。
  4. 虽然soft-max函数可满足\sum_j^n\phi_j=1约束,但是因其探索机制,这可能导致模型出现局部最优。
  5. 狄利克雷分布不仅可以满足\mathbf{\Phi}_i的约束,而且可以通过从狄利克雷分布中抽样,自然地探索可能的动作来找到最优策略。给定Dirichlet抽样的随机过程,agent在不节省特定动作的情况下实现了随机策略。
  6. 使用Dirichlet分布来表征\mathbf{\Phi}_i,有\Phi_i\sim Dir(\phi),将\Phi_i\sim Dir(\phi)定义为\begin{aligned}Dir(\phi)&=\frac1{B(\boldsymbol{\Psi}_i)}\prod_{j=1}^n\phi_j^{\psi_j-1},\phi_j\geq0,\\where~B(\boldsymbol{\Psi}_i)&=\frac{\prod_{j=1}^K\Gamma(\psi_j)}{\Gamma(\sum_{j=1}^K\psi_j),\psi_j>0}\end{aligned}
  7. 标准伽马函数定义为\Gamma(z)=\int_0^\infty x^{z-1}e^{-x}dx,\quad\Re(z)>0
  8. 为满足Dirichlet的\psi_j>0条件,我们使用指数来处理切片动作的参与者网络输出\begin{aligned}&\boldsymbol{\Psi}_i=e^{\boldsymbol{z}}+\epsilon\end{aligned}
  9. 将Dirichlet分布和Ornstein-Uhlenbeck过程的结果串接成一个完整的动作\mu'\left(s_t\right)=Dir(\theta_t^\phi)\oplus\left[\mu\left(s_t\mid\theta_t^f\right)+\mathcal{N}\right]Dir(\phi_t^\phi)子动作用于任务划分,其余元素用于频率控制。
  10. Dirichlet分布和Ornstein-Uhlenbeck过程表示为\mu\left(s_{t}\mid\theta_{t}^{f}\right)+\mathcal{N},可以解决学习阶段的探索问题。
  11. 因为DRL模型通过从Dirichlet分布中采样动作并使用Ornstein-Uhlenbeck过程向动作添加噪声来不断探索,因此,所开发的模型可以不断探索环境,并且不太可能堆叠到非最优策略。

III、算法流程 Algorithm  Process

  • 第一部分是初始化变量和随机权重的网络,创建一个经验回复缓冲区,将网络复制到目标网络。如前所述,我们有两个网络,行动者网络和关键网络,每个网络都有一个目标网络来稳定训练。经验回复缓冲区维护从与MEC网络环境的交互中收集的训练数据。
  • 第二部分是通过与环境交互来收集数据。如前所述,作用由Dirichlet分布和Ornstein-Uhlenbeck过程组成。与MEC的每次交互都会生成一个训练样本,每个样本包括当前观察状态、奖励(反馈)、下一个状态和终止标志。收集到的数据集存储在体验回复缓冲区中,这是一个类似队列的容器。经验回复缓冲区有一个固定的大小,当它接收到新数据时,它会丢弃最旧的数据。
  • 第三部分用于训练模型中的网络。在训练过程中,目标政策参与者添加了一个平滑因子。同样,噪声只被添加到频率控制子动作中,因为其余的子动作是从狄利克雷分布中采样的。作为标准的演员-评论家设置,该策略是根据评论家定义的q值进行优化的。此外,采用软更新和延迟更新方法对目标网络进行更新。延迟目标网络更新以减少方差。该方法与DQN中介绍的固定方法类似;唯一的区别是,它比固定方法更频繁地更新网络。软更新保留了大量的原始权重,而不是完全覆盖网络,这样模型就不必等待很长时间来更新网络,以避免高方差。更新到目标网络的权重部分可以控制因子τ。

五、实验结果 Experiment Result

I、参数设置 Parameter Settings

  1. ACtor网络有五层,神经元的数量分别是状态空间的大小,256、512、256和动作空间的大小。
  2. Critic网络有五层,状态空间中的神经元数量加上动作空间的大小分别为256、512、256和1。
  3. 参与测试的还包括DDPG、DDPG-softmax、双延迟深度确定性策略梯度(TD3)和贪心算法。
  4. TD3模型有两个Critic网络,而DDPG只有一个Critic网络。因此,TD3模型比DDPG模型消耗更多的计算能力。

II、数据分析

A、奖励 Reward

  1. 图4显示了与剧集相关的奖励,D3PG在1500集左右收敛到最优策略。
  2. 为Dirichlet分布捕获了分区动作来改进策略,D3PG模型可以比其他模型获得更好的结果。DDPG-softmax优于DDPG和TD3的原始版本,因为softmax可以捕获分区操作;但由于softmax没有探索最优策略的探索机制,它很可能收敛于局部最优。
  3. 事实上,这个DDPG-softmax有相对较好的结果,因为我们像在TD3中一样在操作中添加了噪声,以帮助softmax探索分区操作。
  4. 因为我们必须强制分区动作满足动作空间约束,导致原始的DDPG和TD3性能都很差。
  5. 贪婪算法不需要学习过程,可以在早期收集更多奖励;它优于标准的TD3和DDGP。

B、处理任务 Completed Tasks

  1. 图5展示了到期前完成的任务数量。
  2. 边缘服务器在开始时每集只能处理最少数量的任务,因为模型采取的随机操作无法正确分配资源。
  3. 当模型与MEC环境交互以学习和改进策略时,它们可以最优地分配资源并服务于最大数量的卸载任务。

C、到期前处理的任务数与总任务数的比率

  1. 因为边缘服务器设置了相当大的任务计算成本和数据大小,因此,有些任务甚至不可能在相应的截止日期前完成,完成比例只是为了比较。
  2. 虽然贪婪算法比DDPG和TD3能够收集到更多的奖励,但是完成的任务数量比学习方法要少。
  3. D3PG在完成任务和任务完成比率方面优于其他方法,因为约束不会削弱模型。此外,狄利克雷分布可以捕捉环境的不确定性并探索最优策略

D、能量损耗 Energy Consumption

  1. 图7显示了每个任务的能量消耗,过期的任务也消耗能量。
  2. 模型可以通过频率控制来节省能量,DRL模型可以找到处理卸载任务的最佳频率,以平衡已完成的任务和能量消耗。
  3. TD3比其他模型消耗更多的能量。
  4. 可以将能耗乘以图6的任务完成率来计算浪费的能源。

E、每个任务的能量消耗 Energy to Tasks

  1. 尽管D3PG比DDPG-softmax消耗更多的能量,但它们处理每个任务所消耗的能量几乎相同,并且D3PG模型比DDPG和TD模型节省更多的能量。

F、平均时间损耗 Average Time Cost

  1. D3PG模型比其他模型节省了更多的时间。
  2. DDPG和DDPG-softmax模型由于时间消耗的权重相对较小,所以没有学习如何降低时间成本。

G、系统稳定性 Stability

  1. 稳定性是通过MEC服务器在每个事件中可以坚持的步数来衡量的当其中一个MEC服务器过载或步数超过1000,我们将episode设置为结束。
  2. TD3和D3PG模型可以达到近1000个
  3. 贪心算法在任务完成率上得到了最好的结果
  4. 但是由于只选择使每个时间步的当前奖励最大化的行动,而不为长期规划资源,边缘服务器很容易过载

六、结论 Conclusion

  1. 为了处理受约束的混合动作空间,我们提出了一种新的DRL模型,即D3GP,将Dirichlet分布集成到DDGP中进行任务划分决策。
  2. 将Ornstein-Uhlenbeck过程集成到DDGP中进行频率控制。
  3. 开发了一种端到端的DRL方法来划分和卸载任务,并分配边缘服务器的计算能力,以实现预期长期回报的联合优化。优化模型以最大限度地在截止日期前完成任务,最小化能源消耗,同时最小化时间成本。
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值