射频通信系统中信息年龄优化的强化学习框架(论文翻译)

射频通信系统中信息年龄优化的强化学习框架

摘要

本文研究了一种实时监控系统,在该系统中,多个源节点负责向一个公共目的节点发送更新包,以保持目的地信息的新鲜性。由于在所有源节点中更换电池或进行充电并不总是可行,我们认为节点是通过目的地的无线能量传输(WET)供电的。对于此设置,我们研究了一种最优在线采样策略(称为年龄最优策略),此策略联合优化无线能量传输和更新包传输的调度,目标是使目的地节点不同物理进程(源节点观测到的)的长期平均加权信息年限(AoI)值最小化,称为sum-AoI。为了解决这一优化问题,我们首先将此设置建模为具有有限状态空间和动作空间的平均成本马尔可夫决策过程(MDP)。由于MDP在状态空间中的极端维数灾难,经典的强化学习算法即使在合理的尺度设置下也不再适用于我们的问题。
出于这个动机,我们提出了一种深度强化学习(DRL)算法,可以以计算效率高的方式学习年龄最优策略。我们进一步分析了年龄最优策略的结构性质,并证明了它对于不同过程的AoI值具有基于阈值的结构。我们扩展我们的分析来描述最大化系统设置的平均吞吐量的策略的结构属性,称为吞吐量最优策略。然后,我们分析地证明了年龄最优策略和吞吐量最优策略的结构是不同的。我们也用数值方法证明了这些结构以及系统设计参数对最优可实现平均加权和AoI的影响。
索引术语:信息年龄,射频能量收集,马尔可夫决策过程,强化学习。

第一章 简介

一个典型的实时监控系统由源节点和目的节点组成,其中源节点观察底层的随机过程,而目的节点通过源节点(通常是无线)传输的状态更新来跟踪这些进程的状态。源节点的示例包括物联网(IoT)设备、聚合器和传感器,而目的节点的示例包括蜂窝基站(BSs)[2]。许多这样的实时系统和应用程序的性能取决于状态更新到达目标节点时的新鲜程度。在实际应用中,由于源节点的能量预算有限,以及源节点和目的节点之间的无线信道的路径损耗,使得测量数据的及时传递受到很大的限制。具体地说,这可能会导致目标节点处的测量值丢失或无序接收。因此,目标节点上信息状态的陈旧性增加,最终降低了此类实时应用程序的性能。
由于在许多源节点中更换电池或充电的效率非常低,甚至是不实际的,因此,能量收集解决方案为通过补充甚至避免在源节点中使用可更换电池来实现通信网络的自我永久运行。由于其普遍性和成本效益的实现,射频(RF)能量收集已迅速成为低功率电源节点(尤其是部署在难以到达地点的节点)充电的一个有吸引力的解决方案[3]。这就要求为新鲜感感知的射频通信系统设计高效的传输策略,这也是本文的主要目的。为了实现这一目标,我们使用AoI的概念来量化目的地节点处信息的新鲜度[4]。这就提出了一个显著问题,即在源节点的能量因果关系约束下,以最小化目的节点的平均AoI为目标,从这些RF供电的源节点优化调度分组传输。为了解决这个问题,在我们所知的范围内,本文首次尝试开发了一个基于强化学习的框架,在该框架中,我们:i)提出一种高效的计算方法,用数字描述年龄最优的输电政策;ii)分析推导年龄最优政策的结构特征,以及iii)分析描述年龄最优和贯穿最优政策的结构特性的关键差异。

A、 相关工作

在[4]中首次引入AoI是一种新的度量,它量化由于源节点传输更新包而导致的目标节点信息的新鲜度。形式上,AoI定义为自源节点生成在目的地成功接收到的最新更新包所经过的时间。在一个简单的队列理论模型下,随机生成的数据包根据泊松过程到达源,然后使用先到先服务(FCFS)规程传输到目的地,[4]的作者描述了平均AoI表达式。随后,一系列的工作[5]-[12]旨在描述平均AoI及其变化(例如,信息峰值年龄(PAoI)[8]-[10]和信息更新值(VoIU)[11]),以适应[4]研究的排队模型。另一个研究方向[13]-[33]侧重于使用AoI作为不同通信系统的性能指标,这些系统在处理时间关键信息的同时拥有有限的资源,例如多服务器信息更新系统[14]、广播网络[15]–[17]、多跳网络[18]、认知网络[19],无人机辅助通信系统[20]–[22]、物联网网络[2]、[23]、[24]、超可靠低延迟车载网络[25]、多播网络[26]、分散随机接入方案[32]和多状态时变网络[33]。特别是,本研究方向的目标是通过运用最优化理论中的不同工具来刻画最小化平均AoI的最优策略,即年龄最优策略。请注意,[13]–[33]没有考虑将能量收集作为源节点的电源。
与[13]-[33]不同的是,另一个研究方向[34]-[48]集中在一类问题上,即源节点在不同的系统设置下由能量收集提供动力。这一系列研究的目的是研究在不同的电池尺寸、更新包的传输时间和信道建模的各种假设下,在源端受能量因果关系约束的情况下,对更新包传输的年龄最优策略进行研究。具体而言,在[34]–[37],[44]中研究了有限电池容量的情况,而[38]–[43],[45],[46]考虑了有限电池容量的情况。与[36]–[41]不同的是,假设每个更新包可以在能量因果关系约束下立即发送到目的地,[34]、[43]、[44]考虑了随机传输时间,而[35]、[45]、[46]研究了非零固定传输时间的情况。虽然[34]–[36]、[38]–[42]、[45]考虑了无差错信道模型,即在目的地成功地接收到每个更新包传输,但是在[37]、[43]、[44]、[46]中考虑了噪声信道模型。在[34]-[45]中,能量收集过程的一个常见模型是独立于所有系统设计参数的外部点过程(例如泊松过程)。相反,当源节点由射频能量收集供电时,如本文所述,在源节点处收集的能量是信道状态信息(CSI)的时间变化的函数。这又意味着[34]-[44]中研究的年龄最优政策不直接适用于这种情况。特别是需要在决策过程中的CSI统计,这为此类设置的年龄最优策略分析增加了另一层复杂性。
在深入讨论我们的贡献之前,有必要注意到,最近[47]、[48]中针对单源-目的地对模型研究了无线供电通信系统中的年龄最优策略问题。然而,在[47]、[48]中提出的政策都没有考虑到源头电池电量的变化和CSI在决策过程中随时间的变化。值得注意的是[22]、[46]、[49]–[52]最近应用了基于强化学习的算法来描述年龄最优策略。然而,这些工作都没有应用基于DRL的算法来有效地设计新鲜感感知的RF供电通信系统。与这些不同,我们考虑一个更通用的模型,在该模型中,部署多个RF供电的源节点来潜在地感知不同的物理过程。针对这种情况,我们提供了一种新的强化学习框架:1)开发一种基于DRL的算法,该算法在考虑电池动态、不同过程的AoI值和CSI的同时,描述在线年龄最优采样策略;2)分析在线结构之间的关键差异年龄最优和吞吐量最优策略。下一步将提供更多关于我们贡献的细节。

B、贡献

本文研究了一种实时监控系统,在该系统中,多个源节点通过频繁地发送更新包,在同一个目的节点上保持所观察到的物理进程的状态是最新的。此外,假设每个源节点通过从目的节点广播的RF信号中获取能量来供电。对于这个设置,下面列出了我们的主要贡献。
优化平均加权和Sum-AoI的新DRL算法:在给定目标节点上每个物理进程的重要性权值的情况下,我们研究了目标节点上不同进程的AoI值之和的长期平均加权和AoI最小化问题。其中,对来自不同源节点的更新包传输的WET和调度进行了联合优化。为了解决这个问题,我们将其建模为具有有限状态和操作空间的平均成本MDP。具体地说,MDP确定每个时隙应该被分配用于来自源节点之一的WET传输还是更新包传输。这个决定是基于源节点的可用能量(或它们的电池电量)、目的节点上不同进程的AoI值以及CSI。由于所提出的MDP在状态空间中存在极大的维数灾难,使用经典的强化学习算法[53]、[54]如相对值迭代算法(RVIA)、值迭代算法(VIA)或策略迭代算法(PIA)来刻画年龄最优策略在计算上是不可行的。为了克服这一障碍,我们提出了一种新的DRL算法,它可以以计算效率高的方式学习年龄最优策略。
年龄最优策略结构性质的解析刻画:通过分析建立与所制定的MDP相关的值函数的单调性,我们证明了对于不同过程的每个AoI值,年龄最优策略是一个基于阈值的策略,更多的,对于单源-目的地对模型(即只有一个源节点的情况),我们的结果表明,对于每个系统状态变量,即源端电池电量、目的地AoI和信道功率增益,年龄最优策略是一种基于阈值的策略。这一结果本身就很有趣,因为源-目的地对模型在许多应用中都具有相关性,例如预测和控制森林资源、智能交通系统的安全性以及未来智能住宅中的高效能源利用。毫不奇怪,在AoI的前期工作中,这个模型已经引起了很大一部分的兴趣。此外,这一结果使我们能够分析地证明年龄最优和吞吐量最优策略的结构之间的关键区别。
系统设计见解:我们的结果提供了一些有用的系统设计见解。例如,它们表明单源-目的地对模型中年龄最优策略和吞吐量最优策略的结构差异主要取决于在目的节点观察到的进程的AoI值。特别是,当AoI值较大时,年龄最优策略和吞吐量最优策略具有不同的结构,但随着AoI值的减小,这些差异开始消失。在证明了所提出的DRL算法的收敛性之后,数值结果还证明了系统设计参数(如电池容量和更新包大小)对可实现的平均加权和AoI的影响。具体地说,它们揭示了DRL算法可实现的平均加权和AoI随电池容量(更新包的大小)单调减少(单调增加)。

C、组织

论文的其余部分安排如下。第二节介绍了我们的系统模型。第三节提出了长期加权和AoI最小化问题,并提出了一种DRL算法来获得其解。然后,我们在第四节中提出了我们用来描述年龄最优政策结构性质的分析,第五节展示了单源-目的地对模型中年龄最优和吞吐量最优策略的结构特性之间的主要区别。第六节验证了第四节和第五节中的分析结果,并对我们提出的DRL算法的性能进行了数值评估。最后,第七节对全文进行总结。
1请注意,在MDPs的分析框架下构建基于阈值的最优策略在其他研究领域(如功率控制和分布式检测)中也很常见。然而,我们的MDP公式的新颖之处在于在目标函数中使用了新出现的AoI概念来量化信息的新鲜度,这在其他研究领域是没有的。这个决策过程是在考虑各种系统设计参数(即电池电量、目的节点的AoI值和CSI)作为系统状态变量时执行的。

第二章 模型系统

A、网络模型

我们研究了一个实时监控系统,其中一组Ι中的N个源节点被部署来观察潜在的不同物理过程,例如温度或湿度。每个源节点都应该通过随时间发送状态更新包来保持

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值