【论文阅读】AoI-aware Scheduling and Trajectory Optimization for Multi-UAV-assisted Wireless Networks

本文链接：https://blog.csdn.net/qq_43406895/article/details/133069695

文章目录

论文基本信息
摘要
1.引言
2.系统模型
3.LYAPUNOV OPTIMIZATION FOR AOI MINIMIZATION 用于AoI最小化的李雅普诺夫优化
4.NUMERICAL RESULTS 数值结果
5.结论
补充

论文基本信息

https://ieeexplore.ieee.org/abstract/document/10001660
《AoI-aware Scheduling and Trajectory Optimization for Multi-UAV-assisted Wireless Networks》
多无人机辅助无线网络的aoi感知调度与轨迹优化

发表在：GLOBECOM 2022 - 2022 IEEE Global Communications Conference
Date of Conference: 04-08 December 2022

中山大学

优化目标：最小化长期平均信息年龄
优化决策：无人机的飞行轨迹、时隙分配、传输调度。（不包括无人机与GUs之间的连接情况）

摘要

在本文中，我们使用了多无人机（uav）来辅助从地面用户（GUs）到远程基站（BS）的传感数据传输。每架无人机可以首先缓存传感数据，然后将缓存的数据报告给BS。我们考虑一个时隙协议来协调无人机的数据收集和报告。在每个时隙中，只有一架无人机被允许将其数据转发到BS。通过联合优化无人机的运动轨迹和调度策略，提出了一个多阶段随机优化问题来最小化长期信息年龄（AoI）。为了简化这一问题，我们通过排队系统对无人机的数据缓冲区和AoI状态进行了动态建模，并提出了一种新的考虑AoI的自适应方案。该方案允许我们利用李亚普诺夫优化框架将多阶段动态规划问题转化为每槽调度和轨迹规划子问题。然后，在每个时隙中，我们可以根据即时缓冲区和AoI状态，迭代地更新无人机的调度和飞行策略。仿真结果表明，该方案在稳定和平衡无人机数据队列的同时，在降低AoI方面优于基线方案。

1.引言

无人机（uav）由于其快速移动、灵活部署和增强视距（LoS）链路的优势，最近引起了广泛的关注并在无线网络中被积极的研究。为了辅助地面网络，无人机可以通过从地面用户（GUs）转发信息到基站（BS）来提供更可靠的无线连接。它们还可以动态地改变其位置，将数据从BS传输到远程或快速移动的gu中，从而提高BS的网络覆盖率和容量[2]。无人机的发展可以帮助实现各种需要对传感信息进行快速响应的实时传感应用，如无人机辅助的空气质量监测[3]和灾害管理[4]。在这种实时传感应用中，传感信息必须立即被收集并报告给远程BS实时处理和决策制定，特别是当感知信息随时间快速变化时。然而，多用户的信道竞争和有限的信道容量实际上导致了向BS的数据传输延迟。在这种情况下，无人机可以通过正确规划无人机的轨迹和调度策略，以最小化等待和传输延迟，快速部署以保持基站和传感信息的“新鲜度”。

信息的新鲜度可以通过信息老化（AoI）概念[5]来表征，它被定义为自最近的数据更新事件以来所经过的时间。AoI的性能与传感信息收集和报告的延迟密切相关。通常，数据更新的总体时延主要包括数据传输前的等待延迟和空中传输延迟。等待延迟受到调度策略的影响，而传输延迟则取决于信道条件。[6]设计了一种在线调度的启发式算法，在高动态信道条件下最小化AoI。作者[7]设计了一种迭代优化算法，以保证调度过程中的新鲜度。与启发式或传统的优化方法不同，调度决策也可以通过使用基于学习的方法来获得。这样，在不确定的和动态的网络环境或有损的信道条件下，如[8]和[9]，可以保持信息的新鲜度。

在无人机辅助无线网络中，无人机的轨迹规划与传输延迟有关。当无人机远离BS，且无人机-BS信道条件恶化时，需要更长的传输时间来报告传感数据。但是，如果所有的无人机都部署在更靠近BS的地方，则无法及时收集来自远处gu的传感数据，从而增加了平均AoI。这激发了多无人机在信息感知和报告方面的任务合作。这也意味着无人机的联合轨迹规划非常高。在单无人机网络[10]中，采用深度强化学习（DRL）方法设计了无人机的飞行轨迹，以保持信息的新鲜度。然而，无人机需要接近gu，在大规模传感器网络中来回收集数据，这可能导致长飞行时间和能源效率低下。
[11]的作者部署了多架无人机来帮助信息更新，为了应对高维状态空间的不确定环境，作者提出了一种DRL，通过调整每个无人机的轨迹来最小化平均AoI。在有限的信道容量下，不同的无人机可能会争夺信道访问，以向基站报告其缓冲数据。在这种情况下，不同无人机之间的调度成为最小化AoI的一个关键设计方面。我们可以预期，具有较高的等待延迟或较长的数据队列的无人机可能有更高的优先级来访问报告通道。一旦确定了预定的无人机，我们就可以优化信息感知和无人机飞行的时间分配，以确保缓冲后的数据可以以最小的传输延迟报告给BS。较长的飞行时间增加了找到合适位置的概率，而较长的无人机传输时间确保了无人机的数据队列的耗尽。

在本文中，我们的目标是通过联合优化无人机的运动轨迹（即移动性控制和时间分配）和调度策略，来最小化多无人机辅助的无线网络中的长期平均AoI。多架无人机的合作关系由基站集中控制。这不仅最小化了远程无人机的等待时间，而且也避免了无人机对信道的不协调竞争。
我们将AoI最小化表述为一个多阶段的随机优化问题，受无人机的队列稳定性约束和最大AoI要求的影响。我们首先将AoI动力学转换为虚拟队列，然后使用李亚普诺夫优化框架将多阶段问题转换为每槽确定性问题。通过这种分解，我们提出了基于aoi感知的自适应方案来更新无人机在每个时隙中的调度和轨迹。给定调度决策，可以通过联合优化信息感知、无人机飞行和报告之间的移动性控制和时间分配，来更新无人机的运动轨迹。我们需要确定调度策略和无人机的部署位置，由于非凸问题的结构，可以通过使用逐次凸逼近（SCA）方法进行优化。仿真结果表明，在满足吞吐量要求的情况下，该方案在降低AoI方面的性能明显优于基线方案。

2.系统模型

在这里插入图片描述

我们假设由于信道容量有限或信道质量差，基站不能直接服务地面用户。无人机可以被部署为无线中继器，以协助数据从GUs传输到BS。每架无人机首先可以从无人机中收集传感数据，然后飞到适当的位置，将缓冲数据转发给BS。
我们的目标是从中心收集最新的传感数据，并保持信息的新鲜度。我们通过联合优化调度策略和无人机的飞行轨迹来实现这一目标。

在这里插入图片描述

在这里插入图片描述
在第一个子插槽中，无人机从GUs中收集最新的传感信息，并将其存储在无人机的数据队列中。在第二子槽中，无人机完成信息收集，然后将缓冲后的信息携带到具有更理想的信道条件的理想位置，以便将信息报告给第三子槽中的BS。

A. Fly-to-report Protocol

以下是每架无人机在一个时间段内的工作过程。

1) Information sensing

我们假设传感数据的尺寸非常小，这代表了感知环境中的状态变化。鉴于无人机在空中的位置，无人机覆盖范围内的所有GUs都可以通过遵循预定义的多址协议提供服务。

特别是，通过使用时分协议，每个GU可以在信息收集周期 $t_{m,s}[n]$ 内逐个将其数据发送给无人机。
设 $s_m[n]$ 表示由无人机在第n个时间槽收集并存储数据队列中的感知数据大小。无人机的数据队列受最大容量 $Q_{max}$ 的限制。

2) UAV’s mobility control

对于任意不同的 $m,m'∈\mathcal{M}$ ， $\neq m'$ ，每个无人机的飞行轨迹都需要满足任意时间段的防碰撞约束和速度限制约束
在这里插入图片描述
其中 $d_{min}$ 为两架无人机之间保证安全的最小距离， $v_{max}$ 为最大飞行速度。该不等式（3b）限制了每个时间段的最大飞行范围。

3) Information reporting

当无人机结束飞行时，预定的无人机将在空中盘旋，然后将缓冲后的数据传输给BS。我们假设UAV-BS通信主要由LoS链路所主导。因此，可以采用一个简单的自由空间路径损耗信道模型来表征信道质量[13]。

在第n个时隙内的传输吞吐量由 $D_m[n]=t_{m,r}[n]\log_{2}{(1+\frac{p_mρ}{||\ell_m[n]-\ell_0||^2})}$ 给出。
其中 $p_m$ 为UAV-m的发射功率，ρ为参考距离处的信道功率增益。这里我们假设用归一化的噪声功率来简化公式。

在每个时间隙中，令 $Q_m[n]$ 表示UAV-m的数据积压，缓冲动态可以表示如下：
在这里插入图片描述
为了保证队列的稳定性，我们要求传感数据的平均到达时间小于到BS的时间平均传输：

在这里插入图片描述

B. Age of Information

设 $a_m[n]$ 为UAV-m中n时间槽开始时UAV-m中的缓冲数据的AoI。如果UAV-m没有被安排在第n个时间段，缓冲信息将进一步延迟一个时间段，因此我们可以通过 $a_m[n + 1] = a_m[n]+1$ 更新其信息年龄。如果当UAV-m被调度在第n个时间段时，UAV-m携带的所有数据都能成功传输到BS，则UAV-m的AoI在下一个时间段降至零，即 $a_m[n + 1] = 0$ 。

然而，由于传输能力有限，无人机-m所携带的数据可以在转发时隙 $t_{m,r}$ 内部分转发给BS。因此，只有一部分缓冲信息将成功地到达BS。
我们定义 $P_m[n] = \frac{D_m[n]}{\min\{Q_m[n]+s_m[n],Q_{max}\}}$ 来表示UAV缓冲中成功被更新的比例。
因此UAV-m的平均AoI为：
在这里插入图片描述

在这里插入图片描述

$a_m[n]$ 的演变情况如图2所示。给定上限，我们要求每架无人机的时间平均时间AoI有界如下：

在这里插入图片描述
这个期望考虑了调度策略。此外，每个无人机的AoI由每个时间隙的 $\={a}$ 限定。

设 $A_m[n]$ 为第n个时间段的累积 $a_m[n]$ ，等于第n个时间段的梯形面积，如图2所示，很容易确定
$A_m[n]=(a_m[n]+\frac{1}{2})-\beta_m[n](P_m[n](a_m[n]+1)(1-P_m[n]))$ 。（含义：总的梯形面积减去阴影平行四边形面积）

3.LYAPUNOV OPTIMIZATION FOR AOI MINIMIZATION 用于AoI最小化的李雅普诺夫优化

我们的目标是通过无人机的调度和轨迹优化来最小化长期平均AoI。需要注意的是，轨迹优化不仅包括每个时隙中的移动性控制，而且还包括传感、飞行和报告之间的时间分配。

在这里插入图片描述

问题(8)难以解决，原因如下。首先，对调度策略的优化进行了组合，并定义了一个离散可行集。其次，即使采用固定的调度策略，无人机轨迹的优化也以非凸结构的随机形式进行时空耦合。

A. Virtual AoI Queue and Lyapunov Optimization 虚拟AoI队列和李雅普诺夫优化

时间平均约束(5)和(7)使目标函数在不同的时隙之间耦合，形成高维动态规划，这实际上是难以解决的。每个时隙中的调度策略不能任意确定。它取决于当前状态，并影响无人机AoI和数据队列状态的未来发展。为了解决这一困难，我们采用李雅普诺夫优化框架将多阶段动态规划问题分解为每槽确定性问题。解耦后，可以独立地确定每个时隙中的调度策略。我们首先给出下面的命题1来说明如何重新表述时间平均AoI约束(7)，并找到它的等价性来简化我们的问题公式。在命题1中的重新表述源于[14]中的结论，它提供了一种将任何随机不等式约束转化为虚拟队列动力学的广义方法。

Proposition 1

对于每个UAV-m， $m \in M$ ，我们用 $X_m[0] = 0$ 构造一个虚拟队列 $X_m[n]$ ，队列动态给出如下：

在这里插入图片描述
如果 $X_m[n]$ 是平均速率稳定的，即 $lim_{n→∞}\frac{E\{|X_m[n]|\}}{n} = 0$ ，我们可以确保(7)中的不等式的满足。

证明：

在这里插入图片描述

因此，在下面，我们分别关注(4)中数据队列和(9)中虚拟AoI队列的稳定性要求的随机AoI最小化问题。
为此，我们定义了广义队列系统 ${Q}[n]=(Q_m[n],X_m[n])_{m∈M}$ ，它表示每个无人机的缓冲区和AoI状态。

给定当前的缓冲区和AoI状态，我们可以通过引入以下李亚普诺夫函数来度量广义队列的稳定性：
在这里插入图片描述
这是缓冲区和AoI状态的非负二次形式。（10）中的常数因子1/2将有助于我们简化推论和算法设计。控制参数μ > 0可以对缓冲区大小和AoI状态设置不同的权重和性能敏感性。如果李亚普诺夫函数很小，那么所有的队列都很小。如果李亚普诺夫函数很大，那么至少有一个队列很大。李雅普诺夫函数从一个槽到下一个槽的期望变化被定义为李雅普诺夫函数中的漂移，其定义为
在这里插入图片描述

给定当前的队列状态 ${Q}[n]$ ，（11）中的期望将考虑第n个时间槽中的所有可能的调度策略。为了稳定广义队列 ${Q}[n]$ ，我们希望最小化队列大小的增量，即李亚普诺夫漂移 $Δ_L(\~{Q}[n])$ 。同时，我们需要最小化AoI $\sum_{m∈\mathcal{M}}A_m[n]$ ，以满足保持信息新鲜度的要求。这两个目标都鼓励我们在每个时间段中尽量减少漂移加惩罚：
在这里插入图片描述
其中，目标中的常数V是一个非负的控制参数，以平衡AoI和队列稳定性之间的权衡。在这一点上，我们已经将时间平均约束(5)和(7)转换为队列动力学(4)和(9)，这允许我们在不同的时间段内分解调度和轨迹优化子问题。现在我们将重点关注（12）中的perslot问题。为了简化公式，我们对（12）中的目标有以下上界。

Proposition 2

问题（12）目标中的漂移加惩罚函数的上界如下：

在这里插入图片描述
命题2的证明遵循了与[15]中类似的思想，为了简洁起见，它在这里被省略了。我们可以集中讨论（13）中的上界的最小化。为了简单起见，我们在每个插槽的问题（12）中删除了时间索引。通过删除（13）的右侧（RHS）中的常数项，问题（12）可以用以下方法来近似：
在这里插入图片描述
Q：公式(15d)该怎样理解？
A： $X_m[n]$ 的定义可以理解为队列X每次移除 $a_{max}$ ，加入 $a_m[n+1]$ ，因此移除的要小于等于原本的加上新来的。

B. Per-slot UAV Scheduling and Trajectory Optimization 每时隙UAV调度和轨迹优化

剩下的问题是如何处理给定的队列状态的问题（15）。我们发现调度决策{βm，m∈M}是二进制的，(1)涉及整数约束。为了使问题（15）更容易处理，我们首先将(1)中的二进制变量放松为连续的变量。这种松弛为问题（15）提供了一个上界。经过放松后，这个问题仍然是非凸的。因此，我们提出了一个交替优化（AO）算法来解决这个宽松的问题可以分两步进行。（TODO：这样做是因为调度决策仅依赖于队列状态，与无人机的机动性控制和时间分配策略无关。因此，我们可以先通过确定t和l来求解调度决策，然后通过确定调度决策来优化无人机的机动性控制和时间分配策略。这种方法简化了优化问题，使其更易于处理。）
第一步是通过求解给定的{tm，m，∀m}的一个标准线性（LP）规划子问题来确定调度决策。因此，我们可以得到最小化（15）的最优βm选择是βopt m =1，其中下标m对应于所有m∈M [16]中βm系数最小化的指数。第二步是通过对给定的{βm，∀m}采用SCA算法，优化无人机在每个时间段的机动性控制和时间分配策略。

第一步是通过求解给定的 $\{t_m，\ell_m，∀m\}$ 的一个标准线性（LP）规划子问题来确定调度决策。因此，我们可以得到最小化（15）的最优 $β_m$ 选择是 $β^{opt}_m =1$ ，其中下标m对应于所有m∈M [16]中 $β_m$ 系数最小化的下标。第二步是通过对给定的 ${β_m，∀m}$ 采用SCA算法，优化无人机在每个时间段的机动性控制和时间分配策略。

通过引入辅助松弛变量ηm和˜m，对问题（15）被重新表述为：

在这里插入图片描述
在算法1中总结了该算法的细节。整个算法包括两个部分：每个槽问题解决和状态更新。首先，我们使用AO算法用两步来解决每个槽问题（15）。第一步是通过求解一个固定{tm，m}的LP问题得到βm。第二步是采用固定βm的SCA技术得到{tm，m}。然后，我们可以根据(4)和(9)更新数据缓冲区和虚拟AoI状态，并进入下一个时隙。

在这里插入图片描述
初始各个队列都是空的，0开始，阈值 $\epsilon= 0.01$ 。

外层 n 的循环是时隙的循环。
在每个时隙中，通过交替优化（每轮优化先决定调度策略，再决定无人机的轨迹规划和时间分配，直到两次之间的差别小于阈值）决定当前时隙的决策。

4.NUMERICAL RESULTS 数值结果

在本节中，我们将评估所提出的aoi感知自适应方案的性能。我们进一步设计了一套基线方案进行比较，即最大数据、最大-aoi和随机方案。最大数据方案意味着我们调度具有最大传输吞吐量的无人机，以在每个时间段转发其缓冲数据。MaxAoI方案调度的无人机具有最大的AoI。优先考虑具有最高AoI的无人机有助于长期降低整体AoI。随机方案随机选择无人机作为基线，转发其数据。