Deep Reinforcement Learning for Delay-Oriented IoT Task Scheduling in SAGIN

目录

一、期刊概述

二、介绍

三、方法

系统模型

1、空天地一体化网络建模

2、计算模型

3、传输模型

4、能耗模型

目标和约束

风险敏感强化学习算法

四、个人小结

参考文献


一、期刊概述

Deep Reinforcement Learning for Delay-Oriented IoT Task Scheduling in SAGIN[1]

翻译:SAGIN(空天地一体化网络)中面向延迟的IoT任务调度的深度强化学习

来源:TWC

二、介绍

背景:考虑到物联网设备的低发射功率和短距离通信范围,本文在空天地一体化网络中提出了一种面向延迟的任务调度,以实时处理计算任务。用无人机与物联网设备进行通信并收集其计算任务,然后实时地做出任务调度决策,如何在合适的空天地一体化网络组件基站低地球轨道卫星,比如SpaceX和OneWeb)上获得高效调度策略是一个至关重要的问题。

方法:首先将在线调度问题建模为一个能量受限的马尔可夫决策过程( MDP )。然后,考虑到任务到达的动态性,本文提出了一种风险敏感强化学习算法。该算法对每个状态进行风险评估,衡量超过约束的能量消耗,并在学习最优策略的同时,搜索权衡最小化延迟和风险的最优参数。时延最大可降低30 %。

三、方法

系统模型

1、空天地一体化网络建模

空天地一体化网络中只考虑UAV、BS和LEO卫星的计算功能。基站具有较高的计算能力,但其覆盖范围有限。低轨卫星始终可以覆盖该区域,并作为陆地网络的补充,而无人机链路的传播延迟不容忽视。因此,应将任务适当地调度到空天地一体化网络中的不同组件,以减少服务延迟。无人机的位置用lt表示,无人机沿轨迹飞行,每个Epoch(一个时间单位)可以卸载多个计算任务,则只能选择一个目的(即BS或卫星)。

图表 1 网络模型

图表2是一个例子。在Epoch1,采集4个任务,其中1个任务在无人机本地处理,3个任务卸载到BS并移入转发队列。在Epoch2中,由于任务转发未完成,无人机无法将新任务移动到转发队列中。在无人机本地只处理一个任务,转发队列中的所有任务都进行传输。在Epoch3,有两个任务被卸载到卫星上,并移动到转发队列中。在Epoch4中,所有任务只能在无人机本地执行。

图表 2 一个例子

2、计算模型

(φ,γ)表示一个任务,φ表示计算任务的输入数据大小,γ表示处理一位输入数据需要多少个CPU周期。计算时延如下:
(1)任务卸载: ,其中αt为卸载目标(0为卫星,n为基站), β t表示要传输的任务,f表示计算能力。

(2)本地时延:本地时延=本地计算时延+排队时延。收集到的任务可能无法在本地处理或者完全卸载到无人机上,假设剩余的任务在UAV的计算队列中等待调度。先对计算队列建模:计算队列中Epoch t的排队任务数为 ,Ht为未完成的任务调度,f为无人机的计算能力,总的来说,就是未完成是任务数减去无人机处理的任务数减去传输的任务数。未完成的任务积压更新为 ,其中,p为计算队列的最大长度。

3、传输模型

无人机有两个通信接口,一个用于LEO卫星,另一个用于基站。接下来,讨论了卸载任务到卫星和基站的传输时延:

(1)无人机—卫星。低轨卫星与地面用户之间的无线通信是通过Ka或Ku频段实现的,其信道条件主要受通信距离和雨衰(雨衰落)的影响。假设气象环境在物联网任务收集过程中保持静止,无人机-卫星链路的信道增益主要由无人机与卫星之间的距离决定。无人机-卫星链路在Epoch t的数据速率为 ,其中Ws表示链路的信道带宽,Ps表示链路的发射功率,σ表示噪声功率。卸载任务到卫星的传输时延为

(2)无人机—基站。由于UAV需要保证在UAV飞出BS的覆盖范围之前能够完成所有βt任务的转发过程,因此转发任务的数量βt满足如下约束:

这意味着β t任务的传输时间比无人机在基站覆盖范围内停留的时间更短。无人机—基站链路数据速率为 其中,WB表示信道带宽,PB表示发射功率,σ表示背景噪声的功率。卸载任务到BS的传输延迟为:

4、能耗模型

一般来说,无人机能耗包括推进能耗、通信相关能耗和计算相关能耗。由于无人机的推进能量主要取决于不同的轨迹和飞机参数,因此可以将其视为一个常数。因此,本文目标是保证能量消耗的剩余部分,即与计算相关的能量和与通信相关的能量不超过无人机的能量容量。用e表示任务传输引起的与通信相关的能量,计算如下:

同时,在无人机上处理计算任务也会消耗能量,这取决于计算任务的计算工作量和无人机的计算能力。用el表示与计算相关的能量,为:

其中ξ表示由芯片结构决定。用Et表示Epoch t的累积能耗:

目标和约束

本文目标是在满足无人机能耗约束的同时,最小化所有计算任务的长期延迟。所有任务在Epoch t的总延迟可以计算如下:

其中同时包括计算时延和传输时延。本文专注于最小化所有任务的时间平均延迟。延迟最小化问题可以表述为:

其中( 14a )是最小化所有收集任务在T个Epoch上的时间平均延迟的目标,( 14b )限制了卸载目的和卸载任务的数量。( 14c )限制了无人机的时均能耗,其中ε是无人机的能量容量。( 14d )和( 14e )分别约束任务卸载决策和卸载任务的数量。

P1不好计算,转化为P2形式,也使得期望平均成本最小。P2是一个带约束的MDP ( Constrained MDP,CMDP )问题,是一个典型的带附加约束的MDP问题

风险敏感强化学习算法

在问题P2中,除了成本最小化的目标外,还需要满足额外的能量容量约束。然而,由于能耗不是成本函数的组成部分,传统的RL方法不能满足问题P2中的约束。因此,本文提出了一种风险敏感的RL算法来处理CMDP问题。具体来说,除了代价函数之外,定义一个额外的风险函数,用来捕捉当前Epoch的无人机能耗是否违反无人机能量容量约束,然后定义一个相应的Q值函数来评估风险的价值。因此,该算法有两个Q值函数,一个Q值函数用于评估成本,另一个Q值函数用于评估风险。然后,提出的风险敏感RL算法独立地更新两个不同的Q值函数,并根据两个Q值函数的和来选择动作。

四、个人小结

背景空天地一体化网络中,用无人机与物联网设备进行通信并收集其计算任务,然后实时地做出任务调度决策,是在本地处理,还是转发到基站,还是转发到低地球轨道卫星上进行处理。(1)先看目标:关键点在“实时”,所以本文目标是尽可能的降低总体时延。(2)接下来是约束,限制了卸载目的(基站,卫星,无人机)和卸载任务的数量,以及无人机的平均能耗。之前看过关于一篇关于调度的综述,就是说场景中有无人机的话,重点考虑其能耗;车联网物联网的话,重点考虑时延。(3)最后是算法,算法这块详细实现没看懂,大概写一下思路。由于能耗不是成本函数的组成部分,传统的RL就不能解决,所以本文提出了风险敏感的RL算法。除了代价函数外,定义一个额外的风险函数,用来捕捉无人机能耗是否违反约束,然后定义一个相应的Q值来评估风险的价值。因此,该算法有两个Q值函数,一个Q值函数用于评估成本,另一个Q值函数用于评估风险。根据两个Q值函数的和来选择动作。

感觉这种调度类型的都是找目标,找约束,有的还会处理目标函数(P1->P2),然后是找个算法最大(小)化目标。算法这部分有这些:

第一次看空天地方向的论文,还是有很多东西都没看懂。我理解的是,就是在之前看的那些网络的基础上加入了卫星这一层,基站提供大流量服务,以天基(高空通信平台,无人机网络,临近空间飞艇)网络和空基(卫星)网络为补充。覆盖范围扩大了很多,但是各个组件之间的交互也变得跟复杂了。有的还加入了海洋网络(下图),以实现全球互联。

  • 参考文献

[1]   Zhou C, Wu W, He H, 等. Deep Reinforcement Learning for Delay-Oriented IoT Task Scheduling in SAGIN[J]. IEEE Transactions on Wireless Communications, 2021, 20(2): 911-925.

多智能体深度强化学习,用于群组分发中的任务卸载。 多智能体深度强化学习是一种强化学习的方法,可以应用于群组分发中的任务卸载问题。在群组分发中,有多个智能体,每个智能体都拥有一定的处理能力和任务需求。任务卸载是指将任务从一个智能体卸载到其他智能体上进行处理,以实现任务优化和系统性能的提升。 多智能体深度强化学习通过使用深度神经网络来构建智能体的决策模型,并基于强化学习框架进行智能体的训练和决策制定。在任务卸载中,每个智能体的状态可以由其当前的任务负载、处理能力和通信延迟等因素来表示。智能体的动作则是选择是否将任务卸载到其他智能体上进行处理。通过与环境交互,智能体可以通过强化学习来调整其决策策略,以优化任务卸载过程中的系统性能。 在多智能体深度强化学习中,可以使用任务奖励来指导智能体的行为。例如,当一个智能体选择将任务卸载给处理能力更高的智能体时,可以给予奖励以鼓励这种行为。同时,如果任务卸载导致较高的通信延迟或任务负载不均衡等问题,可以给予惩罚以避免这些不良的决策。 通过多智能体深度强化学习,可以实现群组分发中的任务卸载优化。智能体可以通过学习和适应来提高系统的整体性能和效率,从而实现任务分配的最优化。这种方法可以应用于各种领域,例如云计算、物联网和机器人协作等多智能体系统。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值