论文阅读:A Generic Markov Decision Process Model and Reinforcement Learning Method for Scheduling Agil

论文阅读笔记:A Generic Markov Decision Process Model and Reinforcement Learning Method for Scheduling Agile Earth Observation Satellites

来源

期刊:EEE Transactions on Systems Man Cybernetics-Systems
链接:https://ieeexplore.ieee.org/document/9200466/keywords#keywords
影响因子:8.7
分区:Q1 中科院一区 TOP

简介

方法思路
进行MDP马尔科夫决策过程建模:排序问题+定时问题
使用DQN算法构建决策智能体

创新点
创新MDP建模:排序问题+定时问题
提出一个 model-free 的RL改进算法
建立了一个结合DQN和高级启发式算法的AEOS调度通用框架

摘要

我们研究了一种基于强化学习的敏捷卫星调度问题的一般解。该方法的核心思想是通过经验训练,确定一个值函数来评估一定状态下的长期效益,然后将该值函数应用于指导未知情况下的决策。
首先,将敏捷卫星调度过程建模为一个具有连续状态空间和离散动作空间的有限马尔可夫决策过程。
敏捷地球观测卫星调度问题的两个子问题,即排序问题和定时问题,分别由模型中的代理部分和环境问题来解决。
利用构造启发式算法可以快速得到一个满意的解决时序问题。
这个问题的目标函数是最大化整个调度过程的总回报。基于上述设计,我们证明了q-网络在拟合这类问题的长期效益方面具有优势。然后,我们通过q学习来训练q网络。实验结果表明,训练后的q-网络能够有效地处理未知数据,并能在短时间内产生较高的总利润。该方法具有良好的可扩展性,可通过只定制约束检查过程和奖励信号来应用于不同类型的卫星调度问题。

将卫星调度问题转换为mdp过程

**用强化可以解决的问题必须被描述为一个有限的马尔可夫决策过程(MDP),并且必须清楚地解释在不同状态下的所有行为的回报。以下先决条件确保RL方法很好地符合AEOS调度问题:
1)制造AEOS后,调度约束和AEOS能力不会改变;
2)AEOS调度问题可以表述为顺序决策问题;
3)目标函数是显式的。对于任何一组决策变量的值,都可以得到一个唯一的目标函数值。
**
AEOS调度问题是一个离散变量的决策问题,适用于通过监督学习或RL算法来解决。然而,为AEOS调度问题收集足够的标记数据是不同的。因此,将AEOS调度问题建模为一个MDP,然后用RL算法来求解它是一种处理它的潜在方法

贡献

(1)构造了一个用于AEOS调度问题的通用MDP框架
(2)建立了一种model-free的离线RL算法来学习估计的长期价值,以指导决策过程。在训练过程中,设计了一种基于调度问题特征的剪枝策略和一种避免每个周期中出现无限循环的规则
(3)建立了一个结合DQL和高级启发式算法的aeos调度通用框架,这两种算法分别解决了AEOS调度问题中的排序问题和时序问题。
(4)通过与其他算法的广泛比较,验证了该算法的可行性和有效性。实验结果表明,该方法比其他先进的RL算法具有更高的收敛速度和精度。同时,该算法在AEOS调度领域也优于其他两种先进的算法。
本文的其余部分的结构如下。
第二节回顾和分析了现有的关于AEOS调度问题的研究以及RL的方法。
第三节建立了一个有限的MDP来制定AEOS调度问题
第四节介绍了解决这一问题的一个框架和一种无模型的方法
第五节报告了在不同条件下完成的实验,然后将所提出的方法与其他方法进行了比较。

AEOS调度问题的有限马尔可夫决策过程

问题描述

AEOS操作中心接收来自不同用户的成像请求。经过预处理后,每个请求都被转换为一组数据,用于计算和决策。这个数据集称为任务,它包含关于可见时间窗口、成像持续时间、利润等的属性。根据问题的目标、约束条件和能力,该系统导出了一种基于调度算法的卫星活动方案。最后,将命令代码发送给卫星,卫星根据命令代码执行任务。操作中心内的数据流程如图1所示。
因此,AEOS调度问题可以说明如下。给定每个任务的一组属性以及AEOS的功能,需要一个方案来指导AEOS何时在哪些时候执行任务。这个过程的目标是在满足所有约束条件的同时最大化目标函数的价值。
AEOS调度问题中的一般目标函数和约束条件在[14]、[24]和[26]中得到了广泛的讨论。综上所述,本工作中考虑的目标函数是所有计划任务的总利润,而约束条件如下。

约束条件

(1)每个任务最多要执行一次
(2)任何任务都只能在其可见的时间窗口内执行。
(3)任何两个任务的执行时间窗口都不重叠。
(4)任意两个连续任务的执行窗口之间的时间间隔不短于所需的过渡时间
(5)调度方案中任务消耗的存储空间不大于卫星的存储容量。

考虑到中继卫星和数据传输站目前的能力,以及数据传输过程的局限性,AEOS可以在每个调度周期内将所有收集到的成像数据返回到地面中心。此外,在预处理中还处理了与外部条件相关的其他状态约束,如光照条件和与卫星硬件能力相关的约束,以减少不确定性和缩小解空间。

(1)每个任务的指向角度被限制在一个范围内。
(2)电池已经足够了,因为AEOS可以一直充电。
(3)AEOS的内存存储容量有限。
(4)卫星的机动能力有限,这与约束列表中的第四个约束有关。

建模过程

这个问题可以分为两个阶段: 1)排序问题和2)定时问题。一旦确定了任务序列,就会有几种算法来解决计时问题。动态规划[17]和一些构造启发式算法[7]、[18]、[23]在一定任务序列下确定AEOS每个任务的执行时间。在我们的框架中,我们选择了一种新的启发式算法来处理AEOS调度问题的第二阶段,即[24]中的HADRT。

排序问题是在卫星拥有敏捷性后出现的问题,这也导致了AEOS调度问题成为np困难问题。
本研究将排序问题建立为一个时间序列决策问题,并设计了一种有效的处理方法。
AEOS调度问题的MDP原理图如图2所示。本节将介绍MDP的状态、行动、奖励和价值功能。

状态

起初,系统处于初始状态s0。代理根据S0执行一个动作A0。在环境接收到A0后,计算动作A0的奖励R1,并刷新状态S1(下一阶段的状态)。
代理基于Si连续输出动作Ai,直到达到终端状态。代理和环境之间的每个交互都称为时间步长 a time step。
状态的描述
每个状态都包含一组属性,描述在某个时间步长的AEOS调度问题的情况。
  g t   \ g^{t}\,  gt:包含经纬度
  p t   \ p^{t}\,  pt:执行任务t后的奖励
g和p由用户提供,并且不需要随着时间变化而更新
v:任务t 在第i个时间步长上 剩余可见时间窗口的数量is the number of remaining visible time windows of task t at the ith time step.
经过预处理后,我们将没有可用可见时间窗口的任务视为无效的任务。因此,任务列表中的每个任务在调度期间都有一个或多个可见的时间窗口。任务不能在可见时间窗口之外执行,所以在某个时间步i进行决策时,vt i是一个重要的指标。l t i是指示任务t是否在时间步i之前被选择的标签
在这里插入图片描述
l决定是否被选择
根据上述设计,描述了任何时间步长Si的状态。
如果所有的任务在一个时间步长之后都没有机会被调度,那么在这个时间步长上的状态就是终止状态。可通过以下等式进行判断:
在这里插入图片描述

奖励

2)奖励:代理从环境中获得的奖励并不总是等于所选行动的利润。这个模型中的奖励是采取行动后总利润的增量
在这里插入图片描述
Xi是时间步长i的决策变量矩阵。

在参考文献[24]中证明了HADRT在一定假设下的最优性。该算法的核心思想是通过启发式函数来选择任务,该函数由每个任务的剩余时间长度和平均工作时间计算得出。
根据我们的设计,在每个时间步长中,环境收到一个动作,它会自动导出相应的奖励和状态。

动作

模型中的操作是“选择一个任务”或“继续”。选择任务的操作是为定时问题选择任务,环境将将其添加到选定任务队列的尾部进行调度。
“继续”是为了避免局部最优而设计的。图3说明了一个支持这一点的例子。

如图3所示,轨道周期是由于卫星轨道周期的周期性。每个轨道周期都是一个独立的调度周期。括号内的数字表示执行此任务后的利润,而相应的任务ID显示在括号外。在图3(a)中,这两个轨道循环的总利润小于图3(b).这个示例说明:如果不在动作空间中继续,总体结果将落入局部最优状态。因此,需要一个前瞻性的代理来解决AEOS调度问题。
在这里插入图片描述

动作空间是离散的,动作空间的大小|A|是任务数量+1 N+1

价值函数

它值函数定义了长期行动的平均回报。根据Bellman公式,值函数可以通过以下方法来学习:
在本研究中,状态空间是连续的,而动作空间是离散的。
因此,表格法并不适用于这个问题。本文通过一个全连通的反向传播神经网络的形式来构建value function:
该值函数的结构如图4所示。这个神经网络包含一个输入层、一个隐藏层和一个输出层。
在这里插入图片描述
该网络的输入是time step i 的状态,包含所有任务的属性。
输出是一个向量,它为状态s处的每个操作提供值。
通过RL的迭代,网络的输出值与实际值之间的差距越来越小。

讨论

到目前为止,已经建立了具有启发式算法的MDP。所提出的MDP扩展了传统MDP的内涵。
首先,MDP将AEOS调度问题的目标函数和约束视为一个黑盒子。将AEOS调度问题分为两个子问题,以充分利用启发式算法和RL算法的优点。
其次,根据AEOS调度问题的特点,精心设计了该MDP中的状态和动作,为该算法快速准确地求解提供了支持。
第三,利用先进的AEOS调度算法得到的结果,建立了一种计算奖励的方法。并与各种设计方法进行了比较。
最后,很难找到一个显式的函数来表示AEOS调度问题的长期回报。本文使用了一个神经网络来表示值函数,并设计了神经网络的输入和输出,使其适合于调度问题

在本研究中,解决MDP的方法是Deep Q learning,其中q网络被用来表示value function。然而,直接应用其他文献中传统的深度q学习并不能有效地处理所提出的MDP和AEOS调度问题。与传统的深度q学习算法相比,该算法有以下两个改进。

1)在选择一个动作的过程中,设计了一种有效的剪枝策略。根据问题的特点,采用了消除不可用和无奖励行动的策略,提高了训练和测试过程中的行动选择效率。
2)提出了一种新的针对多种场景的框架。与通过深度q学习完美地解决的经典问题不同,AEOS调度问题的初始状态在不同的场景中是不同的。我们将随机生成场景的过程嵌入到深度q学习的训练过程的框架中,这使得q网络可以推广到尽可能多的未知场景中。

在我们的情况中,状态空间是连续的,所以在训练过程中不可能遍历所有的状态。
算法1显示了RL代理的训练过程。一旦采取行动并获得相应的奖励,q-网络就会被更新。在每个场景中,agent将运行一定数量的剧集,并不断更新q网络。代理在不同的场景中重复这个过程,最后在未知的情况下得到决策的值函数。
当使用上述算法训练q-网络时,首先随机生成索引。如算法1中的第10行所示,通过将随机数指数与阈值ε进行比较,采取了不同的动作选择策略。

(1)选择动作的剪枝策略:
理论上,每个时间步长的作用空间为N + 1。然而,在两种情况下,任务t在时间步骤i不可用。
Visibility Constraint :可见性约束
在时间步骤i时,任务t没有可见的时间窗口,即vt i = 0。
{s,s’,a,r}作为训练数据,

(1)在测试过程中,不需要在同一场景中进行迭代。
(2)q网络在测试过程中不需要更新,因此在培训后不再需要记录经验历史。
(3)不同的任务选择策略。在测试过程中,代理总是选择Q值最高的动作。

在训练过程中,这一步包含两种可能性:
(a)“利用”来选择具有最高值的动作
(b)探索来随机选择一个动作

在这里插入图片描述

复杂度分析:

(1)时间复杂度:O(N)
在agent中的计算包括选择行动select action训练网络 train network
从算法1中可以很容易地看出,选择一个动作的时间复杂度为O (N),其中N为输入任务的数量。对批次大小为b的批次进行一次训练的时间复杂度为
在这里插入图片描述
在环境中进行的计算包括更新状态 update states反馈奖励 reward feedback,时间复杂度等于HADRT的时间复杂度,即O(N^2)。
在c个training processe个epochs的条件下,训练过程的时间复杂度为

该算法的training time和testing time都随着任务大小N的增加而呈多项式地增加。(虽然相关常数参数也直接影响算法时间,但这并不妨碍算法在大规模场景下的可伸缩性)

1)在测试过程中,不需要在同一场景中进行迭代。
2)q网络在测试过程中不需要更新,因此在培训后不再需要记录经验历史。
3)不同的任务选择策略。在测试过程中,代理总是选择Q值最高的动作。
在训练过程中,这一步包含两种可能性:
a)“利用”来选择具有最高值的动作
b)探索来随机选择一个动作。测试过程的伪代码见算法3
在这里插入图片描述
1)时间复杂性:在代理中的计算包括选择行动和训练网络。
从算法1中可以很容易地看出,选择一个动作的时间复杂度为O (N),其中N为输入任务的数量。对批次大小为b的批次进行一次训练的时间复杂度为

(2)
根据第三节的设计,
状态空间的大小:网络输入层节点数。
动作空间的大小:网络输出层的节点数。
假设隐藏层中的节点数为nhid,每个节点包含两个参数,则神经网络的空间复杂度为
training和testing过程的时间复杂度O(N)和O(N)

算法的讨论

本节采用改进的DQL方法来解决AEOS调度问题。AEOS调度问题的目标是使调度任务的总利润最大化,而训练q网络的目标是尽量减少在一定状态-动作对下真实值与预测值之间的均方误差。
DQL是一种基于价值的离线RL方法,在训练过程中的策略是确定性的。只要该值函数拟合得很好,就可以根据Bellman方程得到该算法的最优解。

遗憾的是,由于值函数在有限的训练迭代条件下达到最优值,AEOS调度问题是NP困难问题,不能保证HADRT在MDP环境下的最优值。
因此,我们不能从理论上证明该算法收敛于最优解,但实验表明,该方法得到的结果具有相当的竞争力。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值