Deep Reinforcement Learning for Delay-Oriented IoT Task Scheduling in SAGIN

最新推荐文章于 2024-05-04 18:00:11 发布

珀安

最新推荐文章于 2024-05-04 18:00:11 发布

阅读量268

点赞数 3

文章标签：物联网

本文链接：https://blog.csdn.net/molly4869/article/details/134662245

版权

一、期刊概述

Deep Reinforcement Learning for Delay-Oriented IoT Task Scheduling in SAGIN[1]

翻译：SAGIN（空天地一体化网络）中面向延迟的IoT任务调度的深度强化学习

来源：TWC

二、介绍

背景：考虑到物联网设备的低发射功率和短距离通信范围，本文在空天地一体化网络中提出了一种面向延迟的任务调度，以实时处理计算任务。用无人机与物联网设备进行通信并收集其计算任务，然后实时地做出任务调度决策，如何在合适的空天地一体化网络组件（基站，低地球轨道卫星，比如SpaceX和OneWeb）上获得高效调度策略是一个至关重要的问题。

方法：首先将在线调度问题建模为一个能量受限的马尔可夫决策过程( MDP )。然后，考虑到任务到达的动态性，本文提出了一种风险敏感强化学习算法。该算法对每个状态进行风险评估，衡量超过约束的能量消耗，并在学习最优策略的同时，搜索权衡最小化延迟和风险的最优参数。时延最大可降低30 %。

三、方法

系统模型

1、空天地一体化网络建模

空天地一体化网络中只考虑UAV、BS和LEO卫星的计算功能。基站具有较高的计算能力，但其覆盖范围有限。低轨卫星始终可以覆盖该区域，并作为陆地网络的补充，而无人机链路的传播延迟不容忽视。因此，应将任务适当地调度到空天地一体化网络中的不同组件，以减少服务延迟。无人机的位置用lt表示，无人机沿轨迹飞行，每个Epoch（一个时间单位）可以卸载多个计算任务，则只能选择一个目的(即BS或卫星)。

图表 1 网络模型

图表2是一个例子。在Epoch1，采集4个任务，其中1个任务在无人机本地处理，3个任务卸载到BS并移入转发队列。在Epoch2中，由于任务转发未完成，无人机无法将新任务移动到转发队列中。在无人机本地只处理一个任务，转发队列中的所有任务都进行传输。在Epoch3，有两个任务被卸载到卫星上，并移动到转发队列中。在Epoch4中，所有任务只能在无人机本地执行。

图表 2 一个例子

2、计算模型

(φ,γ)表示一个任务，φ表示计算任务的输入数据大小，γ表示处理一位输入数据需要多少个CPU周期。计算时延如下：
（1）任务卸载：，其中αt为卸载目标（0为卫星，n为基站）, β t表示要传输的任务，f表示计算能力。

（2）本地时延：本地时延=本地计算时延+排队时延。收集到的任务可能无法在本地处理或者完全卸载到无人机上，假设剩余的任务在UAV的计算队列中等待调度。先对计算队列建模：计算队列中Epoch t的排队任务数为，Ht为未完成的任务调度，f为无人机的计算能力，总的来说，就是未完成是任务数减去无人机处理的任务数减去传输的任务数。未完成的任务积压更新为，其中，p为计算队列的最大长度。

3、传输模型

无人机有两个通信接口，一个用于LEO卫星，另一个用于基站。接下来，讨论了卸载任务到卫星和基站的传输时延：

（1）无人机—卫星。低轨卫星与地面用户之间的无线通信是通过Ka或Ku频段实现的，其信道条件主要受通信距离和雨衰(雨衰落)的影响。假设气象环境在物联网任务收集过程中保持静止，无人机-卫星链路的信道增益主要由无人机与卫星之间的距离决定。无人机-卫星链路在Epoch t的数据速率为，其中Ws表示链路的信道带宽，Ps表示链路的发射功率，σ表示噪声功率。卸载任务到卫星的传输时延为

（2）无人机—基站。由于UAV需要保证在UAV飞出BS的覆盖范围之前能够完成所有βt任务的转发过程，因此转发任务的数量βt满足如下约束：

这意味着β t任务的传输时间比无人机在基站覆盖范围内停留的时间更短。无人机—基站链路数据速率为其中，WB表示信道带宽，PB表示发射功率，σ表示背景噪声的功率。卸载任务到BS的传输延迟为：

4、能耗模型

一般来说，无人机能耗包括推进能耗、通信相关能耗和计算相关能耗。由于无人机的推进能量主要取决于不同的轨迹和飞机参数，因此可以将其视为一个常数。因此，本文目标是保证能量消耗的剩余部分，即与计算相关的能量和与通信相关的能量不超过无人机的能量容量。用e表示任务传输引起的与通信相关的能量，计算如下：

同时，在无人机上处理计算任务也会消耗能量，这取决于计算任务的计算工作量和无人机的计算能力。用el表示与计算相关的能量，为：

其中ξ表示由芯片结构决定。用Et表示Epoch t的累积能耗：

目标和约束

本文目标是在满足无人机能耗约束的同时，最小化所有计算任务的长期延迟。所有任务在Epoch t的总延迟可以计算如下：

其中同时包括计算时延和传输时延。本文专注于最小化所有任务的时间平均延迟。延迟最小化问题可以表述为：

其中( 14a )是最小化所有收集任务在T个Epoch上的时间平均延迟的目标，( 14b )限制了卸载目的和卸载任务的数量。( 14c )限制了无人机的时均能耗，其中ε是无人机的能量容量。( 14d )和( 14e )分别约束任务卸载决策和卸载任务的数量。

P1不好计算，转化为P2形式，也使得期望平均成本最小。P2是一个带约束的MDP ( Constrained MDP，CMDP )问题，是一个典型的带附加约束的MDP问题

风险敏感强化学习算法

在问题P2中，除了成本最小化的目标外，还需要满足额外的能量容量约束。然而，由于能耗不是成本函数的组成部分，传统的RL方法不能满足问题P2中的约束。因此，本文提出了一种风险敏感的RL算法来处理CMDP问题。具体来说，除了代价函数之外，定义一个额外的风险函数，用来捕捉当前Epoch的无人机能耗是否违反无人机能量容量约束，然后定义一个相应的Q值函数来评估风险的价值。因此，该算法有两个Q值函数，一个Q值函数用于评估成本，另一个Q值函数用于评估风险。然后，提出的风险敏感RL算法独立地更新两个不同的Q值函数，并根据两个Q值函数的和来选择动作。

四、个人小结

背景空天地一体化网络中，用无人机与物联网设备进行通信并收集其计算任务，然后实时地做出任务调度决策，是在本地处理，还是转发到基站，还是转发到低地球轨道卫星上进行处理。（1）先看目标：关键点在“实时”，所以本文目标是尽可能的降低总体时延。（2）接下来是约束，限制了卸载目的（基站，卫星，无人机）和卸载任务的数量，以及无人机的平均能耗。之前看过关于一篇关于调度的综述，就是说场景中有无人机的话，重点考虑其能耗；车联网物联网的话，重点考虑时延。（3）最后是算法，算法这块详细实现没看懂，大概写一下思路。由于能耗不是成本函数的组成部分，传统的RL就不能解决，所以本文提出了风险敏感的RL算法。除了代价函数外，定义一个额外的风险函数，用来捕捉无人机能耗是否违反约束，然后定义一个相应的Q值来评估风险的价值。因此，该算法有两个Q值函数，一个Q值函数用于评估成本，另一个Q值函数用于评估风险。根据两个Q值函数的和来选择动作。

感觉这种调度类型的都是找目标，找约束，有的还会处理目标函数（P1->P2），然后是找个算法最大（小）化目标。算法这部分有这些：

第一次看空天地方向的论文，还是有很多东西都没看懂。我理解的是，就是在之前看的那些网络的基础上加入了卫星这一层，基站提供大流量服务，以天基（高空通信平台，无人机网络，临近空间飞艇）网络和空基（卫星）网络为补充。覆盖范围扩大了很多，但是各个组件之间的交互也变得跟复杂了。有的还加入了海洋网络（下图），以实现全球互联。

参考文献

[1] Zhou C, Wu W, He H, 等. Deep Reinforcement Learning for Delay-Oriented IoT Task Scheduling in SAGIN[J]. IEEE Transactions on Wireless Communications, 2021, 20(2): 911-925.