射频通信系统中信息年龄优化的强化学习框架(论文翻译)

射频通信系统中信息年龄优化的强化学习框架

摘要

本文研究了一种实时监控系统,在该系统中,多个源节点负责向一个公共目的节点发送更新包,以保持目的地信息的新鲜性。由于在所有源节点中更换电池或进行充电并不总是可行,我们认为节点是通过目的地的无线能量传输(WET)供电的。对于此设置,我们研究了一种最优在线采样策略(称为年龄最优策略),此策略联合优化无线能量传输和更新包传输的调度,目标是使目的地节点不同物理进程(源节点观测到的)的长期平均加权信息年限(AoI)值最小化,称为sum-AoI。为了解决这一优化问题,我们首先将此设置建模为具有有限状态空间和动作空间的平均成本马尔可夫决策过程(MDP)。由于MDP在状态空间中的极端维数灾难,经典的强化学习算法即使在合理的尺度设置下也不再适用于我们的问题。
出于这个动机,我们提出了一种深度强化学习(DRL)算法,可以以计算效率高的方式学习年龄最优策略。我们进一步分析了年龄最优策略的结构性质,并证明了它对于不同过程的AoI值具有基于阈值的结构。我们扩展我们的分析来描述最大化系统设置的平均吞吐量的策略的结构属性,称为吞吐量最优策略。然后,我们分析地证明了年龄最优策略和吞吐量最优策略的结构是不同的。我们也用数值方法证明了这些结构以及系统设计参数对最优可实现平均加权和AoI的影响。
索引术语:信息年龄,射频能量收集,马尔可夫决策过程,强化学习。

第一章 简介

一个典型的实时监控系统由源节点和目的节点组成,其中源节点观察底层的随机过程,而目的节点通过源节点(通常是无线)传输的状态更新来跟踪这些进程的状态。源节点的示例包括物联网(IoT)设备、聚合器和传感器,而目的节点的示例包括蜂窝基站(BSs)[2]。许多这样的实时系统和应用程序的性能取决于状态更新到达目标节点时的新鲜程度。在实际应用中,由于源节点的能量预算有限,以及源节点和目的节点之间的无线信道的路径损耗,使得测量数据的及时传递受到很大的限制。具体地说,这可能会导致目标节点处的测量值丢失或无序接收。因此,目标节点上信息状态的陈旧性增加,最终降低了此类实时应用程序的性能。
由于在许多源节点中更换电池或充电的效率非常低,甚至是不实际的,因此,能量收集解决方案为通过补充甚至避免在源节点中使用可更换电池来实现通信网络的自我永久运行。由于其普遍性和成本效益的实现,射频(RF)能量收集已迅速成为低功率电源节点(尤其是部署在难以到达地点的节点)充电的一个有吸引力的解决方案[3]。这就要求为新鲜感感知的射频通信系统设计高效的传输策略,这也是本文的主要目的。为了实现这一目标,我们使用AoI的概念来量化目的地节点处信息的新鲜度[4]。这就提出了一个显著问题,即在源节点的能量因果关系约束下,以最小化目的节点的平均AoI为目标,从这些RF供电的源节点优化调度分组传输。为了解决这个问题,在我们所知的范围内,本文首次尝试开发了一个基于强化学习的框架,在该框架中,我们:i)提出一种高效的计算方法,用数字描述年龄最优的输电政策;ii)分析推导年龄最优政策的结构特征,以及iii)分析描述年龄最优和贯穿最优政策的结构特性的关键差异。

A、 相关工作

在[4]中首次引入AoI是一种新的度量,它量化由于源节点传输更新包而导致的目标节点信息的新鲜度。形式上,AoI定义为自源节点生成在目的地成功接收到的最新更新包所经过的时间。在一个简单的队列理论模型下,随机生成的数据包根据泊松过程到达源,然后使用先到先服务(FCFS)规程传输到目的地,[4]的作者描述了平均AoI表达式。随后,一系列的工作[5]-[12]旨在描述平均AoI及其变化(例如,信息峰值年龄(PAoI)[8]-[10]和信息更新值(VoIU)[11]),以适应[4]研究的排队模型。另一个研究方向[13]-[33]侧重于使用AoI作为不同通信系统的性能指标,这些系统在处理时间关键信息的同时拥有有限的资源,例如多服务器信息更新系统[14]、广播网络[15]–[17]、多跳网络[18]、认知网络[19],无人机辅助通信系统[20]–[22]、物联网网络[2]、[23]、[24]、超可靠低延迟车载网络[25]、多播网络[26]、分散随机接入方案[32]和多状态时变网络[33]。特别是,本研究方向的目标是通过运用最优化理论中的不同工具来刻画最小化平均AoI的最优策略,即年龄最优策略。请注意,[13]–[33]没有考虑将能量收集作为源节点的电源。
与[13]-[33]不同的是,另一个研究方向[34]-[48]集中在一类问题上,即源节点在不同的系统设置下由能量收集提供动力。这一系列研究的目的是研究在不同的电池尺寸、更新包的传输时间和信道建模的各种假设下,在源端受能量因果关系约束的情况下,对更新包传输的年龄最优策略进行研究。具体而言,在[34]–[37],[44]中研究了有限电池容量的情况,而[38]–[43],[45],[46]考虑了有限电池容量的情况。与[36]–[41]不同的是,假设每个更新包可以在能量因果关系约束下立即发送到目的地,[34]、[43]、[44]考虑了随机传输时间,而[35]、[45]、[46]研究了非零固定传输时间的情况。虽然[34]–[36]、[38]–[42]、[45]考虑了无差错信道模型,即在目的地成功地接收到每个更新包传输,但是在[37]、[43]、[44]、[46]中考虑了噪声信道模型。在[34]-[45]中,能量收集过程的一个常见模型是独立于所有系统设计参数的外部点过程(例如泊松过程)。相反,当源节点由射频能量收集供电时,如本文所述,在源节点处收集的能量是信道状态信息(CSI)的时间变化的函数。这又意味着[34]-[44]中研究的年龄最优政策不直接适用于这种情况。特别是需要在决策过程中的CSI统计,这为此类设置的年龄最优策略分析增加了另一层复杂性。
在深入讨论我们的贡献之前,有必要注意到,最近[47]、[48]中针对单源-目的地对模型研究了无线供电通信系统中的年龄最优策略问题。然而,在[47]、[48]中提出的政策都没有考虑到源头电池电量的变化和CSI在决策过程中随时间的变化。值得注意的是[22]、[46]、[49]–[52]最近应用了基于强化学习的算法来描述年龄最优策略。然而,这些工作都没有应用基于DRL的算法来有效地设计新鲜感感知的RF供电通信系统。与这些不同,我们考虑一个更通用的模型,在该模型中,部署多个RF供电的源节点来潜在地感知不同的物理过程。针对这种情况,我们提供了一种新的强化学习框架:1)开发一种基于DRL的算法,该算法在考虑电池动态、不同过程的AoI值和CSI的同时,描述在线年龄最优采样策略;2)分析在线结构之间的关键差异年龄最优和吞吐量最优策略。下一步将提供更多关于我们贡献的细节。

B、贡献

本文研究了一种实时监控系统,在该系统中,多个源节点通过频繁地发送更新包,在同一个目的节点上保持所观察到的物理进程的状态是最新的。此外,假设每个源节点通过从目的节点广播的RF信号中获取能量来供电。对于这个设置,下面列出了我们的主要贡献。
优化平均加权和Sum-AoI的新DRL算法:在给定目标节点上每个物理进程的重要性权值的情况下,我们研究了目标节点上不同进程的AoI值之和的长期平均加权和AoI最小化问题。其中,对来自不同源节点的更新包传输的WET和调度进行了联合优化。为了解决这个问题,我们将其建模为具有有限状态和操作空间的平均成本MDP。具体地说,MDP确定每个时隙应该被分配用于来自源节点之一的WET传输还是更新包传输。这个决定是基于源节点的可用能量(或它们的电池电量)、目的节点上不同进程的AoI值以及CSI。由于所提出的MDP在状态空间中存在极大的维数灾难,使用经典的强化学习算法[53]、[54]如相对值迭代算法(RVIA)、值迭代算法(VIA)或策略迭代算法(PIA)来刻画年龄最优策略在计算上是不可行的。为了克服这一障碍,我们提出了一种新的DRL算法,它可以以计算效率高的方式学习年龄最优策略。
年龄最优策略结构性质的解析刻画:通过分析建立与所制定的MDP相关的值函数的单调性,我们证明了对于不同过程的每个AoI值,年龄最优策略是一个基于阈值的策略,更多的,对于单源-目的地对模型(即只有一个源节点的情况),我们的结果表明,对于每个系统状态变量,即源端电池电量、目的地AoI和信道功率增益,年龄最优策略是一种基于阈值的策略。这一结果本身就很有趣,因为源-目的地对模型在许多应用中都具有相关性,例如预测和控制森林资源、智能交通系统的安全性以及未来智能住宅中的高效能源利用。毫不奇怪,在AoI的前期工作中,这个模型已经引起了很大一部分的兴趣。此外,这一结果使我们能够分析地证明年龄最优和吞吐量最优策略的结构之间的关键区别。
系统设计见解:我们的结果提供了一些有用的系统设计见解。例如,它们表明单源-目的地对模型中年龄最优策略和吞吐量最优策略的结构差异主要取决于在目的节点观察到的进程的AoI值。特别是,当AoI值较大时,年龄最优策略和吞吐量最优策略具有不同的结构,但随着AoI值的减小,这些差异开始消失。在证明了所提出的DRL算法的收敛性之后,数值结果还证明了系统设计参数(如电池容量和更新包大小)对可实现的平均加权和AoI的影响。具体地说,它们揭示了DRL算法可实现的平均加权和AoI随电池容量(更新包的大小)单调减少(单调增加)。

C、组织

论文的其余部分安排如下。第二节介绍了我们的系统模型。第三节提出了长期加权和AoI最小化问题,并提出了一种DRL算法来获得其解。然后,我们在第四节中提出了我们用来描述年龄最优政策结构性质的分析,第五节展示了单源-目的地对模型中年龄最优和吞吐量最优策略的结构特性之间的主要区别。第六节验证了第四节和第五节中的分析结果,并对我们提出的DRL算法的性能进行了数值评估。最后,第七节对全文进行总结。
1请注意,在MDPs的分析框架下构建基于阈值的最优策略在其他研究领域(如功率控制和分布式检测)中也很常见。然而,我们的MDP公式的新颖之处在于在目标函数中使用了新出现的AoI概念来量化信息的新鲜度,这在其他研究领域是没有的。这个决策过程是在考虑各种系统设计参数(即电池电量、目的节点的AoI值和CSI)作为系统状态变量时执行的。

第二章 模型系统

A、网络模型

我们研究了一个实时监控系统,其中一组Ι中的N个源节点被部署来观察潜在的不同物理过程,例如温度或湿度。每个源节点都应该通过随时间发送状态更新包来保持其在目的节点(例如,蜂窝BS)处观察到的进程的信息状态是新鲜的。在物联网的上下文中,源节点可以指单个物联网设备或位于一组物联网设备附近的聚合器,其将从这些设备收集的更新包传输到目的节点。假设目的节点有一个稳定的能量源,而每个源节点配备一个射频能量收集电路作为其唯一的能源。特别地,源节点从下行链路中的目的地广播的RF信号中获取能量,使得在源节点i获得的能量被存储在具有有限容量B_(max,i)焦耳的电池中。假设源节点和定位节点各有一个天线,并且在同一个信道上工作。因此,在给定的时刻,每个源节点不能同时在下行链路中获取无线能量并在上行链路中传输数据。
我们考虑一个由单位长度的时隙组成的离散时域(不失一般性),其中时隙k=0,1…对应于持续时间[k,k+1)。用B_i (k)和A_i (k)分别表示时隙k开始时,源节点i和目的地观测过程i的AoI处可用能量量。我们假设A_i (k)的上界为有限值A_(max,i)可以任意大,即 A_i (k)∈{1,2,…,A_(max,i)}。当A_i (k)到达A_(max,i)时,这意味着目标节点上关于进程i的可用信息已经过时,没有任何用处。另外,这个假设使得每个进程的AoI变量只取有限个值,即每个进程的AoI状态空间是有限的。这将有助于MDP的解决,下一节将对此进行说明。让g_i (k)和h_i (k)分别表示时隙k上目的节点和源节点i之间的下行链路和上行链路信道功率增益。假设下行链路和上行链路信道受到准静态流衰落的影响,即它们在一个时隙内保持恒定,但在时隙之间独立地变化。源节点的位置是先验已知的,因此它们的平均信道功率增益在目的节点是预先估计和已知的。具体地说,在任意时隙的开始,目的节点对该时隙中的信道功率增益有着完美的了解,并且对于未来的时隙只有统计知识。对于许多物联网应用来说,这是一个非常合理的假设。

B、 状态空间和动作空间

在任意时隙k的开始处,状态s_i (k) 源节点i的特征在于其电池电量、其在目的地的观测过程i的AoI以及其从目的节点获得的上行链路和下行链路信道功率增益,s_i (k)≜(B_i (k),A_i (k),g_i (k),h_i (k))∈s_i^a 。请注意s_i^a是包含所有组合B_i (k),A_i (k),g_i (k)和h_i (k)的状态空间,其中上标a表示它被定义为平均AoI最小化问题。位置k处的系统状态由下式给出s(k)=〖{s_i (k)}〗_(i∈I)∈sa,其中sa是系统状态空间。在s(k)的基础上,位置k处的动作由a(k)∈A≜{H,T_1,T_2,…T_n,}给出,如图1所示。当a(k)=H时,时隙k专用于无线能量传输,目的地在下行链路中广播射频能量信号,为源节点的电池充电。特别地,由任意源节点i获得的能量量可以表示为
E_i^H (k)=ηPg_i (k) , (1)
式中,η是能量收集电路的效率,P是目的地的平均发射功率。我们假设P足够大,使得在每个源节点由于其他源节点的上行链路数据传输而获得的能量可以忽略不计。另一方面,当 a(k)=T_i 时,时隙k被分配用于信息传输,其中源i向目的地发送关于其观察到的过程的更新包。我们考虑一个随意生成策略[13],在该策略中,每当分配给信息传输的时隙开始时,为传输调度的源生成一个更新包。根据香农的能量消耗公式,当源i在时隙k发送大小为S的更新包时消耗的能量为E_i^T (k),其最大可靠传输速率为〖log〗2 (1+ (h_i (k) E_i^T (k))/σ^2 )bits/Hz(时隙长度是统一的),式中,σ^2是目的地的噪声功率。因此,只有在源i处的电池电量满足以下条件时,才能确定行动T_i
B_i (k)≥E_i^T (k)=σ^2/(h_i (k) ) (2^s-1) (2)
在每个时隙中,每个源节点的电池电量和目的地不同进程的AoI值都会根据所决定的操作进行更新。特别的,如果a(k)=T_i,然后源i处的电池电量降低了E_i^T (k),观察到的过程i的AoI值变成1(回想一下,使用了一个随意生成策略);
如果a(k)=H,然后源i处的电池电量增加了E_i^H (k),过程i的AoI值增加1。否则,源i的电池电量不会改变,进程i的AoI值增加1。因此,源i处电池水平的演变和目的节点处观察到的过程的AoI值可以分别表示为
为了帮助可视化(4),图2显示了过程1的AoI演化,它是N=1和A
(max,i)=4时所采取的行动的函数。

第三章 问题的提出和解决方案

A、 问题陈述

我们的目标是获得最优策略,该策略指定在系统不同状态下随时间所采取的操作,实现最小平均加权总AoI,即目的地不同进程的AoI值总和。尤其的是,π={π_0,π_1,…}是状态空间上动作的一系列概率度量。例如,概率测度π_k表示采取行动a(k)的概率,条件是序列sk,其中包括过去的状态和行动,以及当前的状态等sk≜{s(0),a(0),…,s(k-1),a(k-1),s(k)}。事实上,π_k规定P(a(k)|s^k)为Σ_(a(k)∈A(s(k)) ) P(a(k)│s^k )=1,其中A(s(k))是状态s(k)∈sa状态下的一组可能的操作。当P(a(k)│sk )=P(a(k)│s(k)),∀k 时,状态π是静止的, 当P(a(k)│s^k )=1,对于某些a(k)∈A(s(k)),π被称为确定性,。在π下,从初始状态s(0)开始的目标处的进程i的长期平均AoI可以表示为
是对信道条件和政策的预期。我们的目标是找到最优策略π^*,称为年龄最优策略,它使平均加权和AoI最小化,从而
其中θ_i≥0,∑_(i=1)^N θ_i=1,
θ_i是一个权重,用于说明进程i在目标节点的重要。我们使用加权平均成本函数的目的是提供一个通用的问题公式,它可以解释源节点所观察到的物理过程之间的潜在差异,即每个过程的AoI值对目标节点上所采取的最佳操作的影响。特别地,可以根据目的节点上不同进程的AoI值的重要性来选择权重。例如,如果目的节点只关心源节点i观察到的进程的AoI值,那么对于所有j≠i,我们可以设置θ_i=1,θ_j=0。显然,在这种情况下,最佳策略π^*是根据过程i的AoI值以及源i的电池水平和信道功率增益来选择每个时隙是专用于无线能量传输(a=H)还是分配给来自源i(a= T_i)的更新包传输。因此,在这种情况下,其他过程可实现的平均AoI值由 给出。

B、 MDP阐述

根据源i处电池电平和目的地过程i的AoI值(如(3)和(4)所述,∀i∈I)的演化性质,以及信道功率增益随时间的独立性,该问题可以建模为MDP。
特别地,我们用b_i (k)∈{0,1…,b_(max,i)}表示在时隙k开始处源i处的离散电池能级,其中b_(max,i)表示在源i的电池中可以存储的最大能量量子量,使得每个能量量子包含B_(max,i)/b_(max,i) 焦耳。在这种情况下,数量E_i^T (k)和E_i^H (k)在(3)中应该用两个以能量量子表示的整数变量来代替。因此,通过定义 , ,离散模型的电池在源i处的动力学可以表示为
在e_i^T (k)和e_i^H (k)定义中,我们用上界和下界来得到连续系统性能的下界。显然,连续系统的性能上限可以通过反转上界和下界在e_i^T (k)和e_i^H (k)定义中的使用来得到。类似地,如果信道功率增益是用连续随机变量来模拟的,我们根据衰落概率密度函数(PDF)将它们的支持划分为若干个具有相同概率的区间。在这个意义上,问题被建模为一个有限状态有限动作MDP状态
〖s_i (k)≜(b(k),A_i (k),g(k),h(k))〗_(i∈I)∈s_da(离散模型的状态空间),动作a(k)∈A(s(k))⊆A。由于存在一个求解有限状态有限作用MDPs的最优平稳确定性策略[53],我们的目的是在后文中研究该年龄最优平稳确定性策略,并省略时间指标。请注意,随着电池和信道功率增益的离散电平数的增加,离散模型可以被认为是连续模型的一个很好的近似值,但这是以描述π*的高计算复杂度为代价的。
由于采取了一个动作a,在源节点处从状态s_i=(b_i,A_i,g_i,h_i)转移到状态s_i’=(b_i’,A_i’,g_i’,h_i^’)的概率由下式给出

步骤(a)来自于信道功率增益随时间的独立性和其他随机变量,其中P(g_i^’ )和P(h_i^’) 分别表示下行链路和上行链路信道功率增益的概率质量函数(如果它们最初由连续随机变量表示,则在离散化后)。注意,对于马尔科夫衰落信道模型,条件概率P(g_i^’ |g_i )和P(h_i^’ |h_i )将分别代替P(g_i^’ )和P(h_i’)。这些条件概率是根据所考虑的马尔科夫衰落信道模型来确定的。然而,我们关于年龄最优和吞吐量最优策略结构的所有分析结果(在第四节和第五节中推导)将保持不变。在步骤(b)之后,由于给定了s_i和a,下一个电池电量b_i’和AoI〖 A〗i’的值可以相互独立地确定地获得。具体而言,b_i’仅取决于当前电池电量和信道功率增益,即(b_i,g_i,h_i),而A_i’仅取决于其当前值A_i。因此,从(4)和(7),b_i’和A_i^'可分别确定为
其中l(·)是指示函数。注意,在AoI有有限状态空间的情况下(即,将A
(max,i)设置为∞),术语l(〖 A〗i^’=min⁡{A(max,i),A_i+1})在(10)减少到l(〖 A〗i^’=A_i+1)。
采取行动a后,从状态s=〖{s_i}〗
(i∈I)转移到状态s’=〖{〖s_i〗’}〗(i∈I)的总概率可以表示为
其中(a)根据给定的动作a,每个源节点的状态独立于其他源节点演化。以下引理刻画了最优策略π^*满足(6)。
引理1:最优策略π^*可以通过求解以下平均成本MDP的贝尔曼方程来评估[53]:
式中, 是π*下可实现的最佳平均AoI,与初始状态s(0)无关,V(s)是值函数,Q(s,a)是Q函数,(也称为Q系数,∀s∈S_da 和A(s)),是在状态s内采取行动a的预期成本
其中P(s^’ |s,a)用(11)计算。此外,在s状态下采取的最佳行动如下式给出
由于弱可及性条件对我们的问题成立,因此引理1中Bellman方程的解是存在的[53]。通过使用经典强化学习算法求解Bellman方程来表征最优策略[53,Sec。第3.4节。4.4],[54](例如,VIA、PIA或RVIA)要求在每次迭代中为每个状态评估(14)中的策略改进设置。注意,尽管我们的问题中所有的环境参数都是已知的,但术语“学习”指的是在我们的情况下学习最优策略的过程。将G_i和H_i定义为状态变量g_i和h_i可以分别取的离散值的数目,状态空间Sa内的状态数可以计算为|Sa |=∏
(i∈I) (A_(max,i) G_i H_i (b_(max,i)+1))。显然,对于每个状态变量(即A_(max,i) 〖,G〗(i,) H_i 和b(max,i)+1)的离散值和部署在网络中的源节点(N)的合理数目,状态空间将具有大量的状态。例如,如果我们考虑每个状态变量只能取10个值,并且网络中有三个源节点,那么状态数就变成了〖10〗^12。结果,随着状态数的增加(由于每个状态变量的离散值的增加或源节点的数目的增加),使用经典强化学习算法来获得最优策略在计算上变得不可行。这就需要研究新的方法来描述这种大规模环境中的最优策略。为了克服这一问题,在下一小节中,我们提出了一个DRL算法来数值求解年龄最优策略。在第四节中,我们还将分析推导出年龄最优政策的几个关键结构性质。

C、优化AoI的深度强化学习

DRL方法适合我们的问题,因为它可以在学习最优策略的同时降低大状态空间的维数[55]。如图3所示,所提出的DRL算法有两个组成部分:i)人工神经网络(ANN),它通过提取有用的特征来降低系统状态空间的维数;ii)增强组件,用于根据ANN提取的特征来确定最佳策略。此外,ANN组件有三层:i)由长短期记忆(LSTM)块组成的递归层[56],[57],ii)完全连接(FC)层,其中神经元与递归层的所有输出连接[57],以及iii)由单个神经元组成的回归层,其输出给出状态-动作对输入的Q值。使用递归层的原因是它能够长时间存储信息,这使得它能够在给定的输入序列中学习长期的时间相关性(即,它对时间序列分析很有用)[56]–[58]。这完全符合我们的问题的本质,我们的目标是从以前的时隙的动作和状态中提取有用的特征,从而隐式地降低系统状态空间的维数。
强化学习组件由Q-学习算法[53]、[54]、[59]表示。根据Q学习算法,在每个时隙的开始处,基于所采取的动作以及产生的下一个状态,执行当前状态的Q函数值的更新步骤。特别地,在时隙k+1开始时,我们的平均代价MDP的Q学习算法的更新步骤可以表示为[53,Sec。6.6.3]:
其中 表示在时隙k的状态s(k)中采取动作a(k)所产生的代价,α(k)是槽k处的学习速率,并且s ̅是特殊状态,,它在所有迭代中保持固定,并且可以任意选择。注意(15)是将Q-学习方法应用于平均成本MDP的Q-因子的相对值迭代的结果[53]。价值序列 预计将收敛到最优平均AoI A ̅^*, 在以下条件下[59]:i)∑_(k=1)∞▒〖α(k)〗是有限的,∑_(k=1)∞▒〖(α(k))〗^2 是无限的,ii) 所有潜在的状态作用对都经常被无限地访问,iii) 状态转换概率在最佳静止策略下是静止的。通过应用 (15) 中的更新步骤,系统始终可以通过采取最小化长期平均成本的操作来利用学习过程,即最小化当前状态的 Q 函数值的操作。另一方面,根据条件 ii),系统必须探索算法收敛的所有状态作用对。因此,必须采用􀀁ϵ-贪婪策略[55],其中随机行为在当前状态下以概率决定0<ϵ<1,以探索环境而不是学习过程为目标。同时,随着学习的进行,ϵ的值可以减小为0,以确保有效地利用学习过程,即不会花费太多时间探索环境。
在系统状态空间具有相对较少状态的情况下,单独使用Q学习算法(如上所述)来描述最优策略是有效的。然而,当状态数非常大时(我们的问题就是这样),存储所有状态-动作对的Q-函数值(这需要大量的内存),甚至确保访问所有状态-动作对以实现收敛是不现实的。因此,随着每个状态变量的(离散)支持集的基数和/或源节点数量的增加,仅使用Q学习来描述最优策略是不够的。为了克服这一障碍,我们采用了ANN,它可以非常有效地从数据点提取特征,并在更小的维度上对其进行总结。具体而言,使用深度Q网络方法[55],其中学习步骤与Q学习相同,但Q函数是使用ANN近似的Q(s,a|β),(其结构如上所述),其中β是包含ANN权重的向量。其目的是找出β的最佳值,使人工神经网络存储的Q函数尽可能接近最优Q函数。为此,我们定义了任何组合的损失函数(s(k),a(k),c(k),s(k +1)),如下所示,
其中,下标k+1是权重更新的时隙。此外,重放存储器用于保存对状态、动作和过去经验的代价的评估,即,过去的状态-动作对及其产生的代价。特别是,在每个时隙之后,我们从重放存储器中随机抽取有限数量的过去经验,使用这一批的ANN权重梯度评估如下:
然后利用该损失函数对神经网络的权值进行训练。请注意,在[55]中已经表明,使用批处理方法和重放内存提高了DRL的收敛性。算法1总结了所提出的DRL算法的步骤。
至此,我们已经提出了用数值方法来获得最优策略的方法。在下一节中,我们将分析探讨年龄最优政策π^*的结构性质。
算法1平均加权和AoI最小化的深度强化学习
用权向量β_0初始化重放存储器和ANN Q。
观察初始状态s(0)并设置k=0。
重复:
选择一个动作a(k):
选择概率为ε的随机作用a(k)∈A(s(k)),
否则,选择
执行动作a(k)。
计算成本c(k)并观察新状态s(k+1)。
在回放内存中储存经验{s(k),a(k),c(k),s(k+1)}。
在回放内存中随机抽取一批经验{sˆ(ζ),ˆa(ζ),cˆ(ζ),sˆ(ζ +1)}。
计算与抽样批次的经验相对应的目标值集{t(ζ)}:
利用(17)中的梯度来构造网络Q。
k=k+1。
直到收敛到某个平均加权和AoI值。

第四章 年龄最优策略的结构特性

在这一节中,我们利用VIA分析推导了年龄最优政策π^*的结构性质。请注意,所获得的分析结果也可以使用RVIA得出[53]。为了完整起见,我们从总结VIA开始讨论。
根据VIA,值函数V(s)可以迭代地求值,使得迭代m,m=1,2,…处的 V(s)计算为
其中s∈S_d^a。

因此,迭代m处的最优策略由下式给出,
根据VIA,在值函数〖V(s)〗((0))的任何初始化下,序列{〖V(s)〗((m))}汇聚到V(s),满足在(12)中提到的贝尔曼方程
基于VIA,下面的引理刻画了值函数相对于系统状态变量的单调性。

引理2:满足(12)中贝尔曼方程且与年龄最优策略π^*相对应的值函数V(s)对于电池电量b_j、下行信道功率增益g_j和上行信道功率增益h_j ∀j∈I不递增。相比之下,V(s)相对于AoI A_j,∀j∈I是非递减的。

证明:首先,证明V(s)相对于b_j是非递增的,让我们定义两种状态s1={(b_i1,A_i1,g_i1,h_i^1 )}(i∈I)和s2={(b_i2,A_i2,g_i2,h_i^2 )}(i∈I),此情形下i)b_j1≤b_j2,ii) b_i1=b_i2,∀i≠j,iii) A_i1=A_i2,g_i1=g_i2,h_i1=h_i2, ∀i∈I。因此,我们的目标是证明V(s^1 )≥V(s^2 )。根据(20),这是充分证明〖V(s^1 )〗^((m) )≥〖V(s^2 )〗^((m) ),∀m, 我们用数学归纳法证明了这一点。特别是,m=0的关系通过构造成立,因为它对应于可以任意选择的值函数的初始值。现在,我们假设〖V(s^1 )〗^((m) )≥〖V(s^2 )〗^((m) ),坚持了几m,然后证明它能坚持下去到〖V(s^1 )〗^((m+1) )≥〖V(s^2 )〗^((m+1) )。设C_1=∑_(i∈I)▒〖θ_i A_i^2 〗,C_3=∑_(i∈I)▒〖θ_i A_i^1 〗,根据(18)和(19),〖V(s^2 )〗^((m+1) )和〖V(s^1 )〗^((m+1) )可分别表示为

其中C_0=∏_(i∈I)▒〖P(g_i’)P(h_i’)〗。步骤(a)如下,因为在状态s2采取行动π((m) ) (s^1)不是最佳的, 步骤(b)从(8)-(11)开始,其中,对于给定的π^((m) ) (s1),一组值〖〖{A〗_i’}〗(i∈I)可根据(10)进行评估,集合〖〖〖{b〗i2〗’}〗(i∈I)和〖〖〖{b〗i1〗’}〗(i∈I)可使用(9)确定。注意,既然b_i1=b_i2,∀i≠j,有〖b_i1〗’=〖b_i2〗’,∀i≠j。从另一方面,既然b_j1≤b_j2,从(9)可以看出对于π^((m) ) (s^1 )∈A,〖b_j1〗‘≤〖b_j2〗’,因此〖V(〖{〖b_i1〗’,A_i’,g_i’,h_i’}〗_(i∈I))〗((m))≥〖V(〖{〖b_i2〗’,A_i’,g_i’,h_i’}〗_(i∈I))〗((m)). 因此(21)中的表达式小于或等于〖V(s^2 )〗^((m+1) ),这意味着〖V(s^1 )〗^((m+1) )≥〖V(s^2 )〗^((m+1) ),并表明值函数相对于b_j是非递增的。注意,增加g_i (h_i)会增加e_jH(减少e_jT),这会导致在下一个时隙源j处的电池能量更大,因此是一个低值函数。这证明了V(s)相对于g_i和h_i是非递增的,∀j∈I。
接下来,使用同样的方法,我们可以证明V(s)相对于Aj是非递减的。现在,考虑状态s1和s2被定义为:i)A_j1≥A_j2,ii)A_i1=A_i2,∀i≠j,iii)b_i1=b_i2,g_i1=g_i2 和h_i1=h_i2,∀i∈I。目标是显示V(s^1 )>V(s^2 )。这可以通过数学归纳法再次证明〖V(s^1 )〗((m))≥〖V(s2 )〗^((m) ),∀m。特别地,(21)和(22)可以重写为
其中,由于A_i1=A_i2,∀i≠j 有 〖A_i2〗’=〖A_i1〗’, ∀i≠j。由于A_j1≥A_j2,我们可以得到C_3≥C_1。这样就足以证明对于所有可能的行动π^(
(m) ) (s1)∈A(s1),有C_4≥C_2。特别的,有两种不同的例子1) π^((m) ) (s^1 )=T_j,2) π^((m) ) (s1)∈A(s1){ T_j}。基于(10),对第一个例子有〖A_j1〗’=〖A_j2〗’=1,因此C_4=C_2。另一方面,第二种例子有〖A_j1〗‘≥〖A_j2〗’,导致C_4>C_2 。因此,〖V(s^1 )〗((m+1))≥〖V(s2 )〗^((m+1) ),∀π^(*(m) ) (s1)∈A(s1),这就证明了V(s)对于A_j是非递减的∀j∈I。
基于引理2,下面的定理刻画了年龄最优策略π^*相对于目的节点上不同进程的AoI值的结构
理论1:定义两个状态〖s1={(b_i1,A_i1,g_i1,h_i1)}〗_(i∈I)和〖s2={(b_i2,A_i2,g_i2,h_i2)}〗
(i∈I),由此i) A_j2≥A_j1,ii) A_i2=A_i1,∀i≠j和iii) b_i1=b_i2,g_i1=g_i2 和h_i1=h_i2,∀i∈I。如果π^* (s^1 )=T_j,π^* (s^2 )=T_j。
证明:首先,我们观察到要证明π^* (s^1 )=a ̅暗指π^* (s^2 )=a ̅,等同于证明
这是因为如果在状态s^1中a ̅是最优的,那么我们有 ,暗示 ,在s2状态下,采取行动a ̅是最佳的。因此,为了完成证明,我们需要证明(25)当a ̅=T_j适用于所有可能的选择a’∈A(s2){T_j}。为了保持一般性,我们考虑A(s^2 )=A的情况。特别是,从(8)-(11)和(13),我们有
其中n ∈{1, 2}。根据(25),我们首先注意到∑_(i∈I)▒〖θ_i A_i^n 〗已从Q(s^n,a), n ∈{1, 2}和a∈{a ̅,a^’}中全部取消。当a=T_j 时,从(10)中可得到〖A_J1〗’=〖A_J2〗’=1。这意味着〖C(1,T〗j)将与〖C(2,T〗j)相等,并且将会保持(25)当C(2,a)≥C(1,a),∀a∈A{T_j}。
对于任意a∈A{T_j},由(10)有〖A_jn〗’=min⁡{A
(max,j),A_jn+1}。从i)中有A_j2≥A_j1,那么现在有〖A_j2〗'≥〖A_j1〗’。现在,根据引理2,同时考虑ii)和iii),有〖V(〖{〖b_i1〗’,〖A_i2〗’,g_i’,h_i’}〗_(i∈I))〗((m))≥〖V(〖{b_i’,A_i’,g_i’,h_i’}〗
(i∈I))〗^((m)). 因此,我们得到了C(2,a)≥C(1,a),这就完成了证明。
备注1:对于在网络中部署多个源节点的情况,即N>1,定理1表明年龄最优策略π^*对于不同过程的每个AoI状态变量(即Aj,j∈i)具有基于阈值的结构。对于在网络中部署多个源节点的情况,即N>1,定理1表明年龄最优策略π􀀁对不同过程的每个AoI状态变量都有一个基于阈值的结构,即Aj,j∈i。例如,对于不包括Aj的状态变量的固定组合,如果A_(th,j)是过程j的最小AoI值,对其采取一个操作a=Tj是最优的,那么对于Aj≥A_(th,j)的所有状态,最优决策也是Tj。这也是直观的,因为当某个进程的AoI值变大时,最好通过发送新的更新包来更新目的地该进程的信息状态。
注意,通过检查(25),可以发现π*在N>1的情况下,相对于其他系统状态变量,即电池水平和信道功率增益,没有基于阈值的结构。然而,在N=1的情况下,下面的定理提供了关于所有系统状态变量的最优策略π*的更多结构性质。
注意,符号≼和≽表示元素方面的不等式。
证明:因为在N=1的情况下,动作空间变成了 ,(i) 被证明((ii)被证明)如果(25)适用于
因此,在剩下的部分中,我们着重于(i)的证明,而(ii)同样可以被证明。特别是,从(8)-(10)和(13),我们有
式中n∈{1,2},且(28)中的下一个电池水平等于b_(max,1),,因为 和 既然 是基于引理2的,我们有 和
因此,(25)适用于 这就完成了(i)的证明。

备注2:注意,根据定理2,当N=1时,π^*在状态集上有一个基于阈值的结构 。特别地,π*是针对每个系统状态变量(即b1、A1、g1和h1)的基于阈值的策略。例如,对于固定的(b1,g1,h1),如果A_(th,1)是AoI的最小值,对其采取一个动作a=T1是最优的,那么对于所有的状态s∈S_dth,A_1>A_(th,1)最优决策也是T1。另外,如果存在一个状态s^th=b_(th,1,) A_(th,1),g_(th,1),h_(th,1)),其中b_(th,1,) g_(th,1)和h_(th,1)被定义为类似于A_(th,1),则
基于备注2,使用标准的经典强化学习算法(如VIA或PIA)来描述年龄最优策略的计算复杂性可以显著降低。特别地,年龄最优策略相对于系统状态变量的基于阈值的结构可以用来降低策略改进步骤的复杂性。更具体地说,一些状态下的最优动作现在可以直接基于其它状态下的最优动作来确定(由于年龄最优策略的基于阈值的结构),因此可以大大降低策略改进步骤的计算复杂度。关于这个问题的详细讨论,我们请读者参阅[16]、[24]。还值得注意的是,我们的系统设置中N=1的情况是指文献中大多数关于AoI的工作中研究的经典单源-目的地对模型,例如[4]、[6]、[8]–[13]。由于单源-目的地对模型实际上可能不足以研究一系列不同的应用[4](例如,预测和控制森林资源、智能交通系统的安全性以及未来智能住宅中高效的能源利用率),定理2中得到的N=1的结果在许多应用中都是有意义的。此外,定理2的结果对于研究单源-目的地对模型的年龄最优策略和吞吐量最优策略的结构特性之间的差异非常有用,这将在下一节中讨论。

第五章 年龄最优政策VS.吞吐量最优策略

在这一节中,我们旨在分析比较年龄最优和吞吐量最优策略的结构特性。由于其更高的可处理性(如前一节所示),我们将重点关注单源-目的地对模型进行比较。具体地说,我们首先在第二节介绍的系统设置中,针对N=1的情况,提出了平均吞吐量最大化问题。然后,我们研究了吞吐量最优策略的一些结构性质,并从中突出了年龄最优策略和吞吐量最优策略结构之间的差异。
A、 平均吞吐量最大化公式以及提出的解决方案
当目标是最大化平均吞吐量时,在N=1的情况下,系统在时隙k处的状态被定义为 其中 吞吐量最大化问题离散模型的状态空间,电池和通道功率增益离散化。请注意,AoI现在不包括在系统状态中。对于这种单源-目的地对模型中,动作空间被定义为A≜{H,T1},其中源节点可以在每个时隙获取能量或发送S大小的包。电池的演化由(7)给出。因此,平均吞吐量最大化问题被建模为一个有限状态有限作用MDP,其中存在一个最优的平稳确定性策略[53]。特别是,在政策µ下,长期平均吞吐量定义为
其中,系统在任意时隙中仅当该时隙被分配用于向目的节点传输数据时,才会在该时隙中接收到一些等于S的奖励。这意味着该问题的目标是最大化从发送更新包到目的节点所产生的长期平均吞吐量。更具体地说,我们旨在描述吞吐量最优策略µ的特征,以便
在平稳的确定性策略µ下,从状态s移动到状态s’概率可以表示为
其中 可表示为(9)。然后,通过使用VIA(类似于(18)和(19))求解以下Bellman方程,可以获得最佳策略μ^

式中,R ̅*是μ*可实现的最佳平均吞吐量,并且Q(s,a)可表示为(根据(13)中Q函数的定义和(29)中 的表达式),如下所示:
其中 由(31)计算。显然,Q(s,a)代表表示在s状态下采取行动a所产生的预期回报。此外, 由下式得出。

B、 吞吐量的结构特性——最优策略
引理3:对应于吞吐量最优策略µ*的值函数V(b1,g1,h1)相对于电池电量b1、下行链路信道功率增益g1和上行链路信道功率增益h1是非递减的。
证明:使用(31),可以使用引理2证明中使用的相同方法,即对VIA的迭代应用数学归纳法来获得结果。
利用引理3,给出了吞吐量最优策略的一些结构性质。

证明:这个结果可以用定理2的证明方法得到。注意,由于这是一个最大化问题,证明 导致 现在等同于证明
注3:与注2类似,定理3表明吞吐量最优策略在状态集
上具有基于阈值的结构
注4:我们在定理2和定理3中的结果清楚地证明了年龄最优和吞吐量最优策略的结构是不同的,这也将在数值结果部分得到验证。具体地说,让我们考虑一个状态 如 。注意状态集 属于 既然 。与 在注2中的定义类似,我们定义

现在,对于一个特定的状态 , ,根据引理3,我们注意到 。这表明 和 是不同的,尽管状态s和s ̅具有相同的组合 ,这表明了年龄最优策略结构与吞吐量最优策略结构之间的差异。

第六章 数值结果

在这一节中,我们验证了我们在第四节中得到的分析结果,并展示了我们所提出的DRL算法在可实现的平均加权和AoI作为系统设计参数的函数方面的性能。目标节点和源节点之间的下行和上行信道功率增益建模为 ,Γ 是参考距离为1米时的信号功率增益, 表示小尺度衰落增益, 用指数V表示标准幂律路径损耗。
回想一下,我们表示状态变量gi和hi分别可以由Gi和Hi占用的离散值的数量。在下文中,我们使用gi = j(hi = j)来指代第j级的信道功率增益值,其中j∈{1,2,,··,Gi}(j∈{1, 2,···,Hi})。除非另有说明,否则我们对不同的系统参数使用以下值:W = 1 MHz,P = 37 dBm,η= 0.5,σ^2= -95 dBm,Γ= 0.2,ν= 2和θi= 1,i∈I。

A.验证分析结果

参考图4和图5(图6和图7),我们给出了N = 2(N = 1)时的年龄最优策略的结构。 特别是,每个图中的一个点表示系统的潜在状态,其中蓝色方形点(红色圆圈点)(黑色菱形点)表示在此状态下的最佳动作为T1(T2)(H)。 另外,对于图中的单源-目的地对模型(图6和图7中),位于实心多边形内的点表示可以发送更新包的状态(取T1动作),即对于这些状态b_1≥e_1T中的每一个。此外,位于点多边形内的点表示集合S_d(th,a)(在备注2中定义)年龄最优策略具有基于阈值的结构的状态集。注意,虚线多边形与图7中的实心多边形相同。从这些结果中,我们可以很容易地验证定理1和2中导出的年龄最优政策的分析结构性质是令人满意的。例如,在图4中,由于点(2,3)的最佳作用是T2,我们观察到点(2,y)(其中y>3)的最佳作用也是T2(定理1)。此外,在图7中,点(1,2)处的最佳作用是T1,因此,我们观察到在集合S_d^(th,a)(即实心多边形)内的所有状态(x,y)下采取行动T1是最佳的,这样x≥1和y≥2(定理2,(i))。另一方面,我们观察到在点(2,1)采取行动H的最优性意味着在点(1,1)采取行动H也是最优的(定理2,(ii)。

B、 年龄最优和吞吐量最优策略的结构比较

年龄最优策略和吞吐量最优策略的结构之间的差异可以通过比较图8和图9来理解。具体地说,根据AoI值A1,我们有两种不同的状态:i)当A1很小(例如,在我们的模拟设置中,A1=1),目的节点有关于进程1的新信息,因此没有发送更新包的紧迫性,因此,年龄最优和吞吐量最优策略的结构是相似的(当A1=1时,它们在我们的模拟设置中是相同的,如图8所示);以及ii)当A1较大时(A1>1),与吞吐量最优策略不同,根据年龄最优策略,不管电池中的可用能量是多少,采取行动T1总是最佳的。这是直观的,因为如果AoI值和电池状态都很小,当AoI值变大时,明智的做法是节省电池中的当前能量,以备将来更新包的传输。
图8还验证了定理3所示吞吐量最优策略的分析结构特性。例如,我们观察到在集合S_d(th,r)(即虚线多边形)内的所有状态(x,y)采取行动T1是最佳的,这样x≥4和y≥4,因为点(4,4)的最佳作用是T1(定理3,(i))。此外,由于点(2,10)处的最佳作用是H,我们观察到在S_d(th,a)内的所有状态(x,y)也采取行动H,使x≤2和y≤10(定理3,(ii))。

C、 系统设计参数对最优加权和AoI的影响

由于我们制定的MDP的状态空间中存在维数灾难,应用经典强化学习算法(如RVIA)获得的年龄最优策略只能在小规模设置(即每个状态变量的离散支持集的基数和N值都很小)下进行数值评估。因此,我们首先考虑图10中N=1的情况,以检查我们提出的DRL算法的收敛性,同时根据其可实现的平均AoI与RVIA获得的最佳值之间的差距来量化其性能。然后,我们使用DRL算法演示系统设计参数对图11中较大的N(N=3)的可实现平均加权和AoI的影响。显然,图10表明我们提出的强化学习算法能够快速学习最优策略,从而接近最优平均AoI。注意,DRL算法的最优值与可实现的平均AoI之间的微小差距是由于在DRL算法中使用了ϵ-贪心策略(在学习最优策略的同时探索所有的状态-动作对,从而保证算法的收敛性)。然而,当DRL算法收敛到某个值后,可以检查该算法是否学习了最优策略。因此,在算法收敛后,通过将ϵ的值降为零(即利用学习过程而不必再浪费时间探索环境)来获得平均AoI的最优值。
图11示出了电池容量和更新包大小对可实现的最佳平均加权和AoI 的影响,满足(12)中的Bellman方程。当观察到的平均容量减小时,包的平均容量也随之减小。这是因为减小更新包的大小可以减少从每个源节点发送更新包所需的能量量,并且增加电池的容量可以在电池内存储更多的能量。这反过来又增加了每个源节点在其观察到的过程的AoI值较大时具有更新包传输所需的足够能量的可能性,因此可实现的平均加权和AoI减小。

第七章 结论

在这篇论文中,我们提出了一个可实施的年龄最佳抽样策略,以设计新鲜感感知的射频通讯系统。特别地,我们研究了一个实时监控系统,其中多个射频供电的源节点向目的节点发送更新包,目的是保持其观察到的进程的信息状态新鲜。对于该系统,建立了长期平均加权和AoI最小化问题,其中目标节点的湿量和源节点更新包传输的调度共同优化。为了得到年龄最优策略,该问题被建模为具有有限状态空间和动作空间的平均成本MDP。由于MDP中的状态空间非常大,我们提出了一种能够有效地学习最优策略的DRL算法。文中还对年龄最优策略的结构特性进行了分析,证明了年龄最优策略对不同过程的AoI值具有基于阈值的结构。此外,对于单源-目的地对模型,年龄最优策略对所有系统状态变量具有基于阈值的结构。然后,我们将我们的分析扩展到平均吞吐量最大化问题,利用该问题,我们在数学上描述了系统设置中年龄最优和吞吐量最优策略的结构特性的关键差异。
从数值结果中得出了多个系统设计见解。例如,当AoI值相对较小时,单源目标对模型中的年龄最优策略和吞吐量最优策略的结构相似(即,在目标节点上没有更新信息状态的紧迫性)。与此相反,当AoI值增大时,年龄最优策略和吞吐量最优策略具有完全不同的结构。结果还表明,最优平均加权和AoI是一个单调递增(递减)函数,与更新包的大小(源节点处电池容量)有关。

©️2020 CSDN 皮肤主题: 游动-白 设计师:上身试试 返回首页