【论文解析】Fast Adaptive Task Offloading in Edge Computing Based on Meta Reinforcement Learning

基于元强化学习的边缘计算快速自适应任务卸载

摘要:多接入边缘计算(multi -access edge computing, MEC)旨在将云服务扩展到网络边缘,以减少网络流量和业务延迟。如何有效地将移动应用的异构任务从用户设备(UE)转移到MEC主机是移动应用的一个基本问题。最近,许多基于深度强化学习(DRL)的方法被提出,通过与由UE、无线信道和MEC主机组成的MEC环境交互来学习卸载策略。但是这些方法对新环境的适应性较弱,因为它们的样本效率较低,并且需要进行充分的再训练来学习针对新环境更新的策略。为了克服这一缺点,我们提出了一种基于元强化学习的任务卸载方法,该方法仅需少量的梯度更新和样本即可快速适应新环境。我们将移动应用建模为有向无环图(dag)和通过自定义序列到序列(seq2seq)神经网络的卸载策略。为了有效地训练seq2seq网络,我们提出了一种一阶近似和剪切代理目标协同的方法。实验结果表明,与三种基线相比,这种新的卸载方法可以减少高达25%的延迟,同时能够快速适应新环境。

问题:

移动应用程序对通常由云服务器提供的计算和存储资源的需求大幅增加。这种情况会导致云与用户之间产生巨大的网络流量,从而给回程链路带来沉重的负担,造成较高的业务延迟。

多址边缘计算(Multi-access Edge Computing, MEC)[1]作为一种解决这一问题的关键技术最近被引入。MEC的基本原理是将云计算能力扩展到靠近用户的网络边缘的MEC主机上,可以显著缓解网络拥塞,减少服务延迟。这些任务可以被建模为有向无环图(DAG)。因此,以最小延迟卸载DAG中的相关任务是MEC中的一个关键问题。由于这个问题具有np难度,许多现有的解都是基于启发式或近似算法[4],[5],[6]。然而,这些解决方案严重依赖于MEC系统的专家知识或精确的数学模型。每当MEC系统的环境发生变化时,可能需要相应地更新专家知识或数学模型。因此,一种特定的启发式/近似算法很难完全适应随着MEC应用程序和体系结构的日益复杂而产生的动态的MEC场景。

深度强化学习(Deep reinforcement learning, DRL)将强化学习(reinforcement learning, RL)与深度神经网络(Deep Neural Network, DNN)相结合

DRL在各种MEC任务卸载问题中的应用。他们将包括UE、无线信道和MEC主机在内的MEC系统视为一个固定的RL环境,并通过与环境的交互来学习卸载策略。然而,这些方法对于意想不到的扰动或看不见的情况(即新环境),如应用程序、任务编号或数据速率的变化,适应性较弱。因为它们的样本效率很低,并且需要完全的再训练来学习新环境下更新的策略,所以它们很耗时。

方法:

元学习[14]是一种很有前途的方法,可以通过利用一系列学习任务的经验来解决上述问题,从而显著加速新任务的学习。在RL问题的背景下,元强化学习(MRL)旨在通过建立在之前的经验基础上,在与环境的少量交互中学习新任务的策略。一般来说,MRL进行两个“循环”的学习,一个“外循环”是利用它在多个任务上下文中的经验来逐步调整控制“内循环”操作的元策略参数。基于元策略,“内部循环”可以通过少量的梯度更新[15]快速适应新的任务。

采用MRL来解决计算卸载问题有很大的好处。首先,针对新移动用户的具体策略可以根据他们的本地数据和元策略快速学习。其次,在MEC系统中进行MRL培训可以充分利用MEC主机和终端的资源。更具体地说,元策略(外部循环)的训练在MEC主机上运行,特定卸载策略(内部循环)的训练在UE上处理。通常情况下,“内环”训练只需要几个训练步骤和少量的采样数据,因此计算资源和数据有限的UE能够完成训练过程。最后,MRL可以显著提高学习新任务的训练效率,使卸载算法更适应动态的MEC环境。

在本文中,我们提出了一种基于MRL的方法,该方法将一阶MRL算法与序列对序列(seq2seq)神经网络协同。该方法学习所有终端的元卸载策略,并基于元卸载策略和本地数据快速获得每个终端的有效卸载策略。为了评估动态场景下MRLCO的性能,我们考虑了以下场景:1)移动应用中具有个人偏好的异构用户,这些用户被表示为具有不同高度、宽度和任务数的dag。2)根据终端与MEC主机之间的距离改变传输速率。

本文的主要贡献可以概括为:

  • 本文首次提出了一种基于MRLCO (MRLCO)的方法来解决计算卸载问题,实现了对动态卸载场景的快速适应。MRLCO对新的学习任务具有很高的样本效率,使得UE能够在有限的计算资源下使用自己的数据运行训练过程。
  • 我们提出了一种将动态计算卸载过程建模为多个MDP的方法,将卸载策略的学习分解为两个部分:在不同MDP之间有效学习一个元策略,以及基于元策略快速学习每个MDP的特定策略。
  • 我们将卸载决策过程转化为序列预测过程,设计了一个自定义的seq2seq神经网络来表示卸载策略。同时考虑DAG的任务配置和依赖关系,提出了一种嵌入DAG顶点的方法。此外,我们提出了一种结合一阶近似和剪切代理目标的训练方法来稳定seq2seq神经网络的训练。
  • 我们使用根据实际应用生成的合成dag进行模拟实验,涵盖了广泛的拓扑结构、任务编号和传输速率。结果表明,与微调DRL算法、贪婪算法和基于最早完成时间(HEFT)的异构启发式算法相比,MRLCO在少量训练步骤内实现了最低的延迟。

论文的其余部分组织如下。第二节对MEC、RL和MRL进行了简要介绍。第三节给出了任务卸载的问题公式。MRLCO的详细情况见第4节。评价结果将在第5节中介绍和讨论。第6节审查了有关的工作。我们将在第7节讨论MRLCO及其未来的工作。最后,第8部分对全文进行总结。

本节简要介绍MEC、RL和MRL的相关背景。

近年来,MEC被公认为新兴的网络范式之一,通过将云服务推向网络边缘,可以缓解当前前所未有的流量和计算需求增长带来的压力。通常情况下,MEC主机加上计算和存储资源部署在网络边缘,支持密集的计算和数据处理。因此,MEC可以减轻回程链路的负担,减少服务延迟。MEC有利于各种需要高容量数据和低延迟的新兴应用,如自动驾驶、增强现实和数字医疗。在实践中,许多移动应用程序是由多个任务组成的,这些任务之间存在内部依赖关系,这些任务可以卸载到MEC主机上进行处理。具体而言,任务卸载的目标是找到最优策略,将应用程序分成两组计算任务,一组在UE上执行,另一组卸载到MEC主机上,使总运行成本最小。

Reinforcement Learning

RL考虑从环境中学习,从而使累积的奖励最大化。在形式上,一个学习任务T,被定义为一个MDP,S为状态空间,A为行动空间,R为奖励函数,P为状态转移概率矩阵,p0为初始状态分布,g 2½0;1?是折现系数。A policypðajsÞ,其中A 2a和s 2s,是状态s到选择动作A的概率的映射。

针对MRL的不同方面,出现了丰富的方法。一个典型的例子是基于梯度的MRL,它的目的是学习策略神经网络的初始参数u,以便对给定的新任务在u上执行单个或少量的策略梯度步骤,就可以为该任务生成一个有效的策略。我们遵循模型不可知元学习(MAML)[16]的制定,给出基于梯度的MRL的目标为

元学习的目标是在各种任务集上训练模型,从而仅需少量训练样本就可以解决新任务。 它倾向于将重点放在寻找模型不可知的解决方案上,而多任务学习仍然与模型体系结构密切相关。
因此,元级AI算法使AI系统:

  • 学习更快
  • 可推广到许多任务
  • 适应环境变化,例如在强化学习中

基于梯度的MRL具有较好的泛化能力。然而,MAML中的二阶导数在训练过程中会带来巨大的计算成本,效率低下。此外,当与复杂的神经网络体系结构(如seq2seq神经网络)相结合时,二阶MAML的实现变得非常困难。为了解决这些挑战,一些[16],[17]算法对MAML目标使用了firststorder近似。在本研究中,我们在一阶MRL的基础上实现了MRLCO,因为它具有较低的计算成本和良好的性能,并且结合seq2seq神经网络易于实现。

图1给出了MEC计算卸载的一个实例。这个例子考虑的是一个真实的应用程序——人脸识别,它由一些相关的任务组成,如分层、检测或特征合并[2]。UE根据系统状态和任务配置文件对这些任务进行卸载决策,因此一些任务在UE本地运行,而另一些任务通过无线通道卸载到MEC主机。一般来说,每个MEC主机运行多个虚拟机(vm)处理任务。在本研究中,我们认为每个终端都关联一个专用的虚拟机,为终端提供专用的计算、通信和存储资源,与作品[18]、[19]相同。MEC主机的计算能力(即CPU核数乘以每个核的时钟速度)记为fs。我们认为虚拟机的资源分配是均等的,即所有虚拟机平均共享MEC主机的计算资源。因此,假设在MEC系统中有多个用户,则每个虚拟机的计算量为fvm=fs/k。形式上,我们将移动应用建模为dag,G=(T;E),其中顶点集tt表示任务,有向边集E表示任务之间的依赖关系。每条有向边用表示,对应于任务ti和tj之间的依赖关系,其中tj是tj的即时父任务,tj是ti的即时子任务。由于依赖关系的约束,一个子任务直到它的所有父任务都完成后才可以执行。在G=(T;E),我们将没有子任务的任务称为退出任务。在计算卸载中,计算任务可以卸载到MEC主机上,也可以在终端上本地执行。如果任务ti被卸载,则有三个步骤来执行ti。首先,UE通过无线信道将ti发送到MEC主机。第二,MEC主机运行接收到的任务。最后,将ti的运行结果返回到终端。每一步的延迟与任务配置文件和MEC系统状态有关。其中,tic的任务配置文件包括运行任务所需的CPU周期、Ci、发送任务的数据大小、data i、接收到的结果datar i。MEC系统状态包括无线上行通道的传输速率、Rul和下行通道的速率Rdl。因此,可以计算出任务ti的发送数据Tul i、在MEC主机上执行的Ts i和接收结果Tdl i的延迟:如果任务在终端本地运行,则只有在终端上存在运行延迟,可以通过TUE i = Ci/fUE得到,fUE表示终端的计算能力。任务卸载过程的端到端延迟包括本地处理、上行、下行和远程处理延迟,如图1所示。

如果将任务ti卸载到MEC主机,则只有当父任务全部完成,且上行通道可用时,ti才能开始发送数据。上行通道FTul i的完成时间可以定义为

同样,MEC主机FTs i和下行通道FTdl i的完成时间由

如果在终端上调度ti, ti的开始时间取决于其父任务的完成时间和终端的可用时间。正式地,完成UE, FTUE i定义为

总的来说,目标是为DAG找到一个有效的卸载计划,以获得最小的总延迟。形式上,给定调度计划A1:n的DAG的总延迟为Tc A1:n

其中K为退出任务集。Eq.(8)中的问题是NPhard,因此,由于高度动态的DAG拓扑和MEC系统状态,找到最优的普朗克卸载是非常具有挑战性的。表1总结了本文的主要注释。在下一节中,我们将介绍MRLCO处理此问题的细节。

平均值、向任务发送或接收数据的大小ti、上行和下行链路的传输速率、UE、MEC主机和虚拟机的计算能力、任务上行通道、MEC主机、下行通道和终端的时延。、任务上行通道、MEC主机、下行通道和终端的资源可用时间、n个任务的计算卸载计划、n个任务的计算卸载计划、MDP在第一步的状态、行动和奖励、计算卸载的参数化策略和值函数。、基于策略p从环境中采样轨迹。、编码器和解码器功能、编码器和解码器在第i步时间的输出、解码步骤i中的上下文向量、时间步长t的优势函数、更新学习任务的函数(例如,Adam)

MRLCO: AN MRL-BASED COMPUTATION OFFLOADING SOLUTION

MRLCO的目标是利用UE和MEC主机的计算资源来实现训练过程。训练有两个循环——针对特定任务策略的“内循环”训练和针对元策略的“外循环”训练。“内环”训练在UE上进行,“外环”训练在MEC主机上进行。

图2所示。MRLCO授权的MEC系统的体系结构。该体系结构中的数据流包括:?1移动应用程序?2熟练的技艺,解析?3策略网络参数?4训练有素的政策网络,?将5个任务安排到本地执行器,然后?6个任务卸载给MEC主机,?7卸载任务的结果。

图2显示了将MRLCO集成到由用户级、边缘级和远程级组成的新兴MEC系统[1]的架构。其中,用户级别包括异构UE,边缘级别包括提供边缘计算服务的MEC主机,远程级别包括云服务器。具体来说,移动用户通过本地传输单元与MEC主机通信。主机集成了MEC平台和虚拟化基础设施,提供计算、存储和网络资源。MEC平台提供流量管理(即流量规则控制和域名处理)并提供边缘服务。MRLCO的五个关键模块(解析器、本地训练器、卸载调度器、全局训练服务、nd远程执行服务)可以分别部署在MEC系统的用户级和边缘级,具体如下:

在用户级,该解析器旨在将移动应用程序转换为dag。本地训练器负责“内环”训练,从解析器接收解析后的dag作为训练数据,通过本地传输单元向MEC主机上传/下载策略网络参数。一旦训练过程完成,训练的策略网络将被部署到卸载调度程序,该程序通过策略网络推理来做出卸载决策。在为DAG中的所有任务做出决策后,本地调度任务将在本地执行器上运行,卸载后的任务将被发送到MEC主机上执行。

在边缘水平,全球培训服务和远程执行服务模块部署到MEC平台。全局训练服务用于管理“外环”训练,外环训练用于发送/接收策略网络的参数到终端,并在MEC主机的虚拟化基础设施上部署全局训练过程。远程执行服务负责管理从终端上卸载的任务,将这些任务分配给关联的虚拟机,并将结果发送回终端。

接下来,我们描述了MRLCO在MEC系统中的详细训练过程,如图3所示。MRLCO的培训过程包括四个步骤。首先,UE从MEC主机下载元策略的参数。接下来,基于元策略和本地数据,在每个UE上运行“内部循环”训练,以获得特定于任务的策略。然后,UE将任务特定策略的参数上传到MEC主机。最后,MEC主机根据收集到的任务特定策略参数进行“外循环”训练,生成新的元策略,开始新一轮训练。一旦获得稳定的元策略,我们可以利用它通过“内部循环”训练快速学习新UE的特定任务策略。注意,“内环”训练只需要很少的训练步骤和少量的数据,因此可以得到UE的充分支持。我们将在4.3节介绍“外循环”和“内循环”训练的算法细节。

图3所示。MRLCO授权的MEC系统的培训过程包括四个步骤:1)UE从MEC主机下载元策略u参数;2)基于u和本地数据在UE上进行“内环”训练,获取特定任务策略u0的参数;3) UE上传u0到MEC主机;4) MEC主机根据收集到的更新参数u0进行“外环”训练。标题

 

将计算卸载过程建模为多个mdp

为了适应MRL来解决计算卸载问题,我们首先将不同MEC环境下的计算卸载过程建模为多个MDP,其中学习一个MDP的有效卸载策略是一个学习任务。正式地,我们考虑在MEC中所有学习任务的分布,其中每个任务被表述为一个不同的MDP, 。(有关这些符号的含义,请参阅第2.2节。)为了获得所有学习任务的自适应卸载策略,我们将学习过程分解为两个部分:在所有MDP中有效学习一个元策略,以及基于元策略快速学习一个MDP的特定卸载策略。MDP的状态、行动和奖励的定义如下:

状态。在调度任务ti时,任务运行的延迟取决于任务配置文件(即所需的CPU周期、数据大小)、DAG拓扑、无线传输速率和MEC资源的状态。根据方程式。(5)、(6)、(7)中,MEC资源的状态与ti之前调度的任务的卸载决策有关。因此,我们将状态定义为编码的DAG和部分卸载计划的组合:G(T;E)由一系列任务嵌入和A1:i是第一个i个任务的部分卸载计划。为了将一个DAG转换为一个任务嵌入序列,我们首先根据每个任务的秩值升序对任务进行排序和索引,定义为其中表示任务i从开始卸载到完成执行的延迟时间,表示表示ti的一组即时子任务。每个任务被转换成包含三个元素的嵌入:1)嵌入当前任务索引和规范化任务概要的向量,2)包含当前父任务索引的向量,3)包含当前子任务索引的向量。嵌入父/子任务索引的向量的大小被限制为p。我们用-1填充向量,以防子/父任务的数量小于p。

行动。每个任务的调度是一种二进制选择,因此动作空间定义为A:={0;1},其中0表示在UE上执行,1表示卸载。 

奖励。目标是最小化Eq.(8)中给定的Tc A1:n。为了实现这个目标,我们将奖励函数定义为对一个任务做出卸载决策后,延迟的估计负增量。正式地,当对任务ti采取行动时,增量定义为

根据上述MDP定义,我们将调度ti时的策略表示为对于一个有n个任务的DAG,令表示在图下,有卸载计划A1:n的概率。因此将概率链规则应用于每个作为

图4所示。MRLCO中seq2seq神经网络的体系结构。该体系结构由编码器和解码器组成,编码器的输入是任务嵌入序列,解码器的输出用于生成策略和值函数。

seq2seq神经网络[20]是表示Eq.(11)中定义的策略的自然选择。图4为我们设计的自定义seq2seq神经网络,该网络可分为编码器和解码器两部分。在我们的工作中,编码器和解码器都是由递归神经网络(RNN)实现的。编码器的输入是任务嵌入的序列,[t1,t2,...,tn],解码器的输出是每个任务的卸载决策,[a1,a2,...,an].为了提高性能,我们在自定义的seq2seq神经网络中加入了注意机制[20]。注意机制允许解码器参加源序列的不同部分(例如,编码器的输入序列)输出的每一步生成,因此它可以缓解的问题造成的信息丢失原始seq2seq神经网络输入序列编码成一个向量与固定尺寸。形式上,我们将编码器和解码器的函数分别定义为fencand fdec。在我们的工作中,我们使用了长短期记忆(LSTM)作为fenc和fdec。在编码的每一步中,编码器的输出ei由,对所有输入任务嵌入进行编码后,输出向量为e=[e1,e2,…,en]在每个解码步骤中,我们定义解码器的输出dj为,其中cj为解码第j步的上下文向量,计算为编码器输出的加权和:

计算编码器每个输出ei的权值aji其中,分数函数用于衡量位置i的输入和位置j的输出匹配程度。根据[20]的工作,我们将分数函数定义为一个可训练的前馈神经网络。我们使用seq2seq神经网络来逼近策略和值函数,通过传递解码器两个独立的完全连接的层。注意policy和value函数共享了大部分用于提取dag的共同特征的参数(例如,图结构和任务配置文件)。因此,培训政策可以促进价值功能的培训,反之亦然。在训练seq2seq神经网络时,从策略中采样生成动作aj。一旦训练完成,DAG的卸载决策可以通过seq2seq神经网络进行推理,其中动作aj由生成。因此,我们算法的时间复杂度与seq2seq神经网络的推理是一样的,即为O(n^2)。通常,移动应用的任务数n小于100 [4],[5],[22],因此MRLCO的时间复杂度是可行的。

4.3 MRLCO的实施

MRLCO算法与基于梯度的MRL算法具有相似的算法结构,由两个循环组成训练。我们没有使用VPG作为训练[16]的“内环”策略梯度方法,而是基于近端策略优化(PPO)[23]来定义我们的目标函数。与VPG相比,PPO具有更好的探索能力和训练稳定性。对于一个学习任务Ti, PPO使用样本策略puo ifor生成轨迹,并更新目标策略pui,其中uie等价于初始时代。为了避免目标策略的大量更新,PPO使用了一个剪切的替代目标

这里,我们给出了样本策略网络的参数向量。θ是样本策略与目标策略之间的概率比,定义为

剪辑功能旨在限制Prt的价值,以消除将prt移出间隔的激励。^At是t时刻的优势函数。特别地,我们使用了广义优势估计量(GAE)[24]作为我们的优势函数

是用来控制偏差和方差之间的权衡。值函数损失定义为

总的来说,我们把等式结合起来。(16)、(19),将每个“内环”任务学习的目标函数定义为:式中c1为值函数损失系数。根据Eq.(2)定义的基于梯度的MRL目标和Eq.(20)给出的目标函数,MRLCO的“外环”训练目标表示为

接下来,我们可以进行梯度上升来最大化JMRLCOθ。然而,该目标函数的优化涉及到梯度的梯度,当组合复杂的神经网络如seq2seq神经网络时,会带来较大的计算成本和实现困难。为了解决这个问题,我们使用一阶近似代替[17]中建议的二阶导数,它的定义为其中n为“外环”采样的学习任务数,a为“内环”训练的学习率,m为“内环”训练的梯度步长。

在算法1中给出了算法的总体设计。元策略神经网络的参数记为u。我们首先对一批批量为n的学习任务T进行采样,并对每个采样的学习任务进行“内环”训练。在完成“内环”训练后,我们使用梯度上升方法更新元策略参数通过 Adam[25]。其中,b为“外环”训练的学习率。

5绩效评估

本节给出了该方法的实验结果。首先介绍了MRLCO算法的超参数和仿真环境。接下来,我们通过比较微调DRL方法和启发式算法来评估MRLCO的性能。

5.1超参数算法

MRLCO是通过Tensorflow实现的。seq2seq神经网络的编码器和解码器都设置为两层动态长短期记忆(LSTM),每层有256个隐藏单元。此外,在编码器和解码器中增加了层规范化[26]。对于MRLCO中的训练超参数设置,“内环”和“外环”的学习率均设置为5*10^-4。系数c1设为0.5,剪辑常数设为0.2。折现因子分别设为0.99和0.95。“内环”训练的梯度步数m设为3。总的来说,我们总结表2中的超参数设置。

5.2模拟环境

我们考虑一个蜂窝网络,其中数据传输速率随终端的位置而变化。UE (fUE)的CPU时钟速率设置为1ghz。MEC主机的每个虚拟机有4个核,CPU时钟速率为2.5 GHz /核。被卸载的任务可以在所有核上并行运行,因此一个虚拟机的CPU时钟速度,

许多现实世界的应用程序都可以通过dag进行建模,具有各种拓扑结构和任务配置文件。为了模拟异构DAG,我们根据[27]实现了一个合成的DAG发生器。有四个参数控制拓扑和任务配置文件生成的熟练的技艺:n,脂肪、密度、ccr,其中n代表任务数量,脂肪控制DAG的宽度和高度,密度决定两个层次之间的边的数量的DAG, ccr表示任务的通信和计算成本之间的比率。图5显示了从低脂肪和密度到高脂肪和密度的生成的dag。

图5所示。生成dag的例子。

我们设计了三个实验来评估MRLCO在动态场景下的性能。前两个实验模拟了UE具有不同的应用程序首选项的场景,这些应用程序首选项由不同的拓扑和任务编号表示。第三个实验模拟了UE具有不同动态传输速率的场景。对于所有实验,每个任务的数据大小从5 KB到50 KB不等;每个任务所需的CPU周期为107 ~ 108cycles[5]。子/父任务索引向量p的长度设为12。对于每个生成的DAG,我们在0.3到0.5之间随机选择ccr,因为大多数移动应用程序都是计算密集型的。每次实验生成的数据集被分为“训练数据集”和“测试数据集”。我们把学习作为一个学习任务来考虑每个数据集的有效卸载策略。MRLCO首先通过算法1学习基于“训练数据集”的元策略。学习的元策略然后被用作初始策略快速学习一个有效的卸载策略为“测试数据集”。我们将MRLCO与三种基线算法进行比较:

  • 微调DRL实验室。它首先使用[12]中提出的基于drl的卸载算法为所有“训练数据集”预训练一个策略。接下来,它使用训练的策略网络的参数作为特定任务的策略网络的初始值,然后在“测试数据集”上更新。
  • HEFT-Based。该算法是在[4]的基础上改进而来的。[4]算法首先根据权重对任务进行优先排序,然后以估计完成时间最早的方式对每个任务进行调度。
  • 贪婪。每一项任务都根据其估计完成时间被贪婪地分配给UE或MEC主机。

5.3结果分析

在第一个实验中,我们生成了不同拓扑的DAG集来模拟用户对移动应用有不同偏好的场景。每个数据集包含100个具有相同fat和密度的相似拓扑的DAG,这是影响DAG拓扑的两个关键参数。我们将每个生成的DAG的任务数设置为n=20,并设置。25个DAG集合以不同的脂肪和密度组合生成。每个DAG集代表一个移动用户的应用偏好,并将为DAG集寻找有效的卸载策略作为学习任务。我们随机选取22个DAG集作为训练数据集,另外3个作为看不见的测试数据集。我们在训练数据集上训练MRLCO和微调DRL方法,在测试数据集上评估MRLCO和基线算法。

在MRLCO的训练中,我们设元批大小为10,因此在“外环”训练阶段,从ρ(T) 中抽取10个学习任务。在每个“内环”,我们为DAG采样20条轨迹,并对PPO目标进行m策略梯度更新(m=3)。训练之后,我们通过运行多达20个策略梯度更新来评估MRLCO和微调DRL方法,每个策略梯度在测试数据集上为一个DAG采样20条轨迹。图6显示了MRLCO和基线算法在不同DAG集下的性能。总体而言,贪心算法的时延最大,MRLCO算法的时延最小。

从图6a可以看出,经过9步梯度更新后,MRLCO算法优于基于权重的算法,而微调DRL算法始终不如基于权重的算法。这表明MRLCO比微调DRL方法适应新任务的速度快得多。在无花果。6 b、6 c, MRLCO和微调DRL梯度的方法和0一步更新已经击败了两个heuristic-based算法:HEFT-based和贪婪算法,因为MRLCO和重要性DRL学习基于pre-trained模型更新的政策,而不是从头开始学习。这些基于启发式的算法使用固定的策略来获取卸载计划,不能很好地适应不同的DAG拓扑。

第二个实验旨在展示任务数n对不同算法性能的影响。我们随机生成6个训练数据集,, 3个测试数据集,。在每个数据集中,我们通过随机选择, ccr从0.3到0.5,因此所有数据集的DAG拓扑分布相似。在本次实验中,我们设置meta batch size为5,其余设置与第一次实验相同。从图7可以看出,经过几次梯度更新后,MRLCO和微调DRL方法都优于基于权重的算法,且始终优于梯度更新第0步开始的Greedy算法。此外,MRLCO比微调DRL方法适应新的学习任务更快。例如,从图7b可以看出,经过一步梯度更新后,MRLCO的延迟明显降低,比微调算法和基于重量的算法的延迟都要小。经过20次梯度更新后,MRLCO算法相对于基线算法获得了最低的延迟。我们进行了第三个实验来评估MRLCO在不同传输速率下的性能。学习每个传输速率的卸载策略被视为一个单独的学习任务。我们通过设置n¼20,其他参数与第二次实验相同,随机生成DAG数据集。此外,通过对求解空间的穷尽搜索,实现了最优算法来寻找最优卸载方案。我们随机选取传输速率为4 ~ 22 Mbps,步长为3 Mbps,进行元训练过程。然后我们在{5.5 Mbps, 8.5 Mbps, 11.5 Mbps}的传输速率中评估训练的元策略,这些在训练过程中是看不到的。从图8可以看出,在所有测试集中,MRLCO对新的学习任务的适应速度仍然比微调DRL方法快得多,并且在20次梯度更新后,延迟达到最低。在某些情况下(图8b和8c), MRLCO甚至在初始点达到最低的延迟。

表3总结了所有算法在不同测试数据集上的平均延迟。总体而言,经过20个梯度更新步骤后,MRLCO算法的性能优于所有启发式基线算法。MRLTO和微调DRL方法的更新步骤越多,效果越好。表3还显示了100个更新步骤后微调和MRLCO算法的性能。与精调算法相比,MRLCO在经过20步和100步更新后均取得了更好的效果。然而,MRLCO的结果与最优值之间仍然存在差距。一种可能的解决方案是将seq2seq神经网络与另一种样本高效的off-policy MRL方法[28]集成,这是未来工作的方向。

6 RELATED WORK

MEC任务卸载问题是目前国内外研究热点,[30]5、[10]、[11]、[13]、[29]、[30]、[31]、[32]、[33]、[34]、[35]、[30]0、[30]1、[30]2、[30]3、[30]4。一般来说,在相关的工作中有两种任务模型:二进制卸载的任务模型和部分卸载[29]的任务模型。在二进制卸载的任务模型中,应用程序的计算任务之间没有内部依赖关系。Dinh等人[5]的目标是在不同的接入点和MEC主机之间寻找一组任务的卸载计划,以实现最小的延迟和能量联合目标。Chen等人[30]关注的是软件定义超密集网络中独立任务的计算卸载问题。他们将任务卸载问题定义为一个混合整数非线性规划,并采用分解和启发式方法求解。Hong等人[31]提出了一种近似的计算卸载动态规划算法,以达到最优的体验质量。在部分卸载任务模型中,应用程序由具有内部依赖关系的任务组成,能够实现较细的计算卸载粒度,从而获得较好的卸载性能。Wang等人[32]将应用和计算系统建模为图,并提出了一种寻找任务卸载计划以获得最低成本的近似算法。Neto等人,[33]为Android应用程序实现了一个用户级在线卸载框架,旨在最大限度地减少远程执行开销。Zanniet al.[34]提出了一种创新的Android应用任务选择算法,实现了方法级的卸载粒度。为了适应动态场景下的任务卸载策略,近年来,DRL被广泛应用于解决MEC系统中的任务卸载问题。Dinh等人[10]利用深度q学习研究了多用户多边缘节点计算卸载问题。Chen等人[11]考虑的是超密集网络,可以选择多个基站进行卸载。他们也采用了深度q学习来获得卸载策略。Huang等人[38]提出了一种基于drl的卸载框架,将卸载决策和资源分配结合起来考虑。Zhanet al.[36]提出了一种将PPO和卷积神经网络相结合的高效任务卸载方法。Tan等人[37]提出了一种基于深度q学习的卸载方法,该方法考虑了有限资源、车辆机动性和延迟的约束。Huang等人[13]提出了一种基于drl的在线卸载框架,使所有终端的计算率加权和最大。Ninget al.[39]提出了一种基于深度q学习的MEC任务卸载和资源分配联合优化方法。现有的研究大多将卸载问题作为一个学习任务,并采用传统的DRL算法来解决该任务。然而,许多DRL算法的样本效率较低,当面对新的场景时,基于DRL的卸载方法需要长时间的训练才能找到有效的策略,这阻碍了它们的实际部署。为了解决这一问题,泛洪法采用了MRL方法,该方法仅需少量的梯度更新步骤和少量的数据,就能有效地解决新的学习任务。因此,我们的方法可以快速适应环境的变化,只需要很少的训练步骤,而不是从头开始完全重新训练卸载策略。由于计算量和数据量的要求较低,该方法可以利用自己的数据在资源受限的终端上高效运行。

7讨论

MRLCO与现有的基于rl的任务卸载方法相比,具有学习快速适应动态环境和样本效率高等优点。除了MEC系统中任务卸载的范围外,所提出的MRLCO框架有潜力应用于解决更多的MEC系统中的决策问题。例如,MEC的内容缓存就是将流行的内容缓存到MEC主机上,为移动用户实现高质量的服务,减少网络流量。而MEC主机可以有不同的缓存策略来适应不同地区用户的动态内容偏好和网络条件。提出的MRL框架可以通过在云服务器上执行“外环”训练来学习元缓存策略,以及在MEC主机上执行“内环”训练来学习每个MEC主机的特定缓存策略来解决这个问题。尽管MRLCO对MEC系统有很多好处,但进一步勘探仍面临一些挑战。在本文中,我们考虑稳定的无线信道、可靠的移动设备和充足的计算资源。因此,当增加用户数量时,MRLCO不会崩溃。但在大规模运行时,一些UE作为掉线者可能会由于网络连接中断或电量不足而退出。考虑到“外环”训练的同步过程,即从所有UE收集参数后更新元策略,掉队者可能会影响MRLCO的训练性能。解决这一问题的一种方法是采用自适应的客户选择算法,该算法可以自动过滤掉掉队的客户,并根据其运行状态选择可靠的客户加入训练过程。

8结论

本文提出了一种基于mrl的方法,即MRLCO,来解决MEC中的计算卸载问题。与现有的作品不同,MRLCO可以在少量的梯度更新和样本中快速适应新的MEC环境。该方法将目标移动应用建模为dag,将计算卸载过程转换为序列预测过程,并采用seq2seq神经网络有效地表示该策略。此外,为了降低训练成本,我们对MRL目标采用了一阶近似,并在目标上增加了一个代理夹,以稳定训练。我们对不同的DAG拓扑结构、任务编号和传输速率进行了仿真实验。结果表明,与微调DRL算法、贪心算法和基于权重的算法相比,在少量的训练步骤内,MRLCO实现了最低的延迟。

  • 8
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值