【论文阅读】Deep Reinforcement Learning for Joint Trajectory Planning, Transmission Scheduling, and Access

论文基本信息

https://www.mdpi.com/1424-8220/23/10/4691

在这里插入图片描述

《Deep Reinforcement Learning for Joint Trajectory Planning, Transmission Scheduling, and Access Control in UAV-Assisted Wireless Sensor Networks》
《无人机辅助无线传感器网络中联合轨迹规划、传输调度和访问控制的深度强化学习》

https://www.mdpi.com/journal/sensors
http://www.letpub.com.cn/index.php?journalid=7473&page=journalapp&view=detail

摘要

无人机(uav)可用于将地面用户(GUs)之间的传感信息和计算工作负载中继到远程基站(RBS),以进行进一步处理。在本文中,我们使用多架无人机来协助在一个地面无线传感器网络中收集传感信息。无人机收集到的所有信息都可以转发给RBS。我们的目标是通过优化无人机的飞行轨迹调度访问控制策略来提高传感数据收集和传输的能源效率
考虑到时槽帧结构,无人机飞行、传感和信息转发子槽被限制在每个时隙中。这推动了无人机访问控制和轨迹规划之间的权衡研究。一个时隙内更多的传感数据将占用更多的无人机缓冲空间,需要更长的传输时间进行信息转发。我们通过一个多智能体深度强化学习方法来解决这个问题,该方法考虑了一个关于GU空间分布和交通需求的不确定信息的动态网络环境。利用无人机辅助无线传感器网络的分布式结构,进一步设计了一个减少行动和状态空间的层次学习框架,以提高学习效率。仿真结果表明,采用访问控制的无人机轨迹规划可以显著提高无人机的能效。分层学习方法在学习方面更稳定,也能获得更高的感知性能。

1.引言

如今,随着无人机(uav)的发展和未来无线网络交通需求的增加,无人机可以集成到无线网络中,用于构建物联网(物联网)的空中集成无线传感网络,如[1–3]。传统上,地面用户(GU)和远程基础状态(RBS)之间的直接连接由于通道阻塞、GU的移动性和有限的能源供应,可能是不可靠的。由于增强的空对地直接信道条件和无人机的快速机动性,无人机可以在协助GU数据感知和信息转发到RBS方面发挥重要作用。无人机可以作为空中接入点,以增强对无人机的服务供应,或作为中继节点,以协助RBS服务覆盖区域[4,5]之外的数据传输。例如,通过利用其在快速部署方面的灵活性,无人机可以作为紧急救援[6,7]的移动接入点。

目前,由于高维优化的复杂性,无人机轨迹和传输控制策略的联合控制仍存在一些局限性,缺乏集中的协调,以及未知的网络环境动态,如[8–10]。为了利用无人机辅助无线网络的性能增益,无人机轨迹规划是利用无人机移动性和动态重塑网络结构,有利于数据传输的最有利的设计问题之一,如[11–22]。目前的研究主要关注无人机辅助无线网络的轨迹规划问题。gu的上行数据传输策略也是无人机辅助传感网络中高效数据收集和传输的一个关键设计方面。由于无人机在不同位置的覆盖范围存在差异,[23,24]必须在不同的无人机之间智能划分,以在干扰和网络覆盖[23,24]之间进行权衡。当一些无人机有一个低空和更接近无人机,无人机可能有一个有限的覆盖区域,只服务数量有限的无人机;然而,在它的覆盖范围内,它将有更好的信道条件。在其他情况下,当更多的无人机被同一无人机覆盖时,感知信息可能会很大,从而占用更多无人机的缓冲空间。这意味着更多的感知时间和更高的传输功率,为无人机将所有信息转发给RBS。这种性能权衡促使我们结合无人机轨迹规划来优化无人机的门禁策略。很明显,无人机的访问控制依赖于无人机在每个时隙中的运动轨迹和时变的网络环境,包括gu的空间分布、信道条件、交通需求和能源供应。现有文献中的大部分工作都是通过设计无人机轨迹和有效的调度策略[25–29]来关注无人机辅助感知网络中的能量和频谱效率。

本文主要研究了无线传感器网络中无人机的飞行轨迹、传输调度和接入控制策略的联合优化。gu是能量供应有限的低功率传感器设备,但它们可以收集并将射频信号转换为能量供应。当无人机飞越其轨迹时,它们不仅从无人机收集传感数据,还调整其访问控制策略,以平衡无人机的能量收集和消耗。这有助于维持gu的传感活动,并延长传感器网络的使用寿命。特别地,我们考虑了一个时间开槽框架结构,为无人机感知和报告GU传感信息。在每个时隙中,无人机决定了信息转发的最佳悬停位置和传输调度策略。考虑到无人机的位置,每个GU都可以通过低功耗后向散射通信或具有更高传输速率的传统射频通信来上传其传感数据。可以优化后向散射和射频通信之间的模式选择,以平衡GUs的能源消耗和交通需求。

GUs的访问控制策略可以在每个无人机上进一步优化,以平衡传感和传输开销。考虑到这种高维控制问题的非凸性和复杂性,我们首先提出了多智能体DRL方法,通过与网络环境的连续交互,联合适应无人机轨迹和传输调度以及GU模式选择和访问控制策略。为了提高多智能体的学习效率,我们进一步提出了一个层次学习框架,将控制变量分解为两部分。基于无人机的局部观测结果,首先采用上层MADDPG算法对无人机的飞行轨迹和调度策略进行了更新。然后,在固定的传感位置下,可以采用下层DQN方法进一步适应GU模式选择和访问控制策略。仿真结果表明,与传统的MADDPG算法相比,分层学习框架具有更好的收敛性能和更高的回报。

2.相关工作

2.1. Multi-UAV-Assisted Wireless Networks 多无人机辅助的无线网络

许多传统的优化方法被应用于解决无人机辅助无线传感器网络中的轨迹、资源分配和调度问题。为了联合优化无人机轨迹、资源分配和功率分配策略,在[11]中提出了一个非凸性和组合问题,并推导一个近似的和迭代的算法来求解它。[12]的作者旨在最大化所有传感节点(SNs)的最小平均数据收集率。然而,该问题缺乏一个有效的功率控制的封闭解决方案。采用数据回归方法采用块坐标下降(BCD)方法逼近最优解。为了使GUs的和率最大化,[13]中的作者提出了使用智能反射面(IRS)来改善信道条件。同样,采用BCD方法迭代优化资源分配、IRS相移、无人机轨迹规划和传输功率。优化方法通常需要完整的网络信息来适应无人机的轨迹规划和资源分配策略。这在动态无线网络中变得不灵活,因为无人机经常改变它们的传感位置。信息交换的开销可能非常高。此外,时空领域的轨迹优化本质上依赖于动态规划,这在大规模无人机辅助网络中是需要计算量的。

2.2. Multi-Agent DRL for UAV-Assisted Wireless Networks 无人机辅助无线网络的多代理深度强化学习

与传统的优化方法相比,DRL的最新应用可以使无人机更能适应信息不完整的动态网络环境,如不完全的信道条件和未知的流量需求。[14]的作者研究了联合IoTD(Internet of Things Devices)分配、部分卸载和通信资源分配问题。提出了一种多智能体DDPG算法,以最大限度地提高IoTD的服务满意度,同时最小化其总能耗。
[15]的作者提出了一种空气计算系统来为地面设备提供计算服务。采用多智能体近端策略优化技术(MAPPO),通过联合优化无人机资源分配和任务卸载策略,使异构QoS需求范围内的计算任务数量最大化。[16]论文中的作者利用双延迟深度确定性策略梯度(TD3)算法来规划无人机的飞行轨迹,并实现了最小化任务完成延迟的目标。[17]的作者考虑了无人机轨迹规划和网络形成中复杂的时空耦合。提出了一种利用多智能体深度确定性策略梯度(MADDPG)算法,在优化无人机轨迹的同时更新无人机的网络形成的启发式算法。特别是,每架无人机可以首先收集和缓存GU的传感数据,然后在它们的轨迹上相遇时将缓存的数据转发给下一个无人机。
作者在[18]中提出了一种联合多智能体深度确定性策略梯度(F-MADDPG)算法,以最大限度地提高平均频谱效率。联邦平均(FA)用于消除数据的隔离,从而加速学习的收敛。进一步设计了分布式F-MADDPG(DF-MADDPG)方法,以减少分布式体系结构中的通信开销。分层学习算法的设计思想出现在许多出版物中。例如,[19]的作者旨在最小化无人机的总能源消耗。设计了一种两层混合学习算法,采用DRL方法适应无人机的轨迹,然后采用基于模型的优化方法对底层资源分配进行优化。[20]的作者采用了层次多智能体DRL(H-MADRL)框架,通过联合优化高级接入点的波束形成策略和低级用户的卸载决策,来提高移动边缘计算系统的整体能源效率。
[21]的作者提出了一个层次化的DRL框架,分两步来最小化信息的年龄。第一步是通过外环DRL方法确定用户的传输调度策略,第二步是通过内环优化方法调整所有节点的上行和下行传输策略。与上述层次学习框架不同,本文中的方法包括两个DRL学习层,而不是一个混合学习和优化框架。上层MADDPG用于解决无人机轨迹规划问题,下层DQN用于解决GU访问控制策略。[22]的研究人员通过层次学习研究了无人机网络的形成和轨迹优化方法。该网络的形成旨在适应无人机对无人机的链路,以提高无人机的传输能力。在外环算法中,采用启发式算法来适应无人机的网络形成。在考虑固定网络形成策略的情况下,采用多智能体DDPG算法进行无人机轨迹规划,并采用贝叶斯优化方法进一步增强。与[22]不同的是,我们本文的工作假设所有无人机都需要直接向基站报告信息,我们重点关注无人机轨迹规划、GU传输调度和访问控制,这些是[22]没有考虑的。此外,本文设计了一种两层学习算法,而不是外环启发式算法,这对于大规模无人机辅助无线网络是不灵活的。

2.3. UAV-Assisted Sensing Scheduling and Access Control 无人机辅助传感调度和访问控制

鉴于无人机的高移动性,根据时变网络环境自适应地更新无人机的传感调度和访问控制策略成为一项重要的任务。[29]的作者使用无人机来协助蜂窝网络中的下行传输。为了在有限的额容量下最大化用户的和可达率,提出了混合整数非线性规划(MINLP)联合设计无人机的位置、传输波束形成和无人机-ue关联策略。
[26]的作者提出了一个针对无人机的充电调度和能源管理的框架。为了最大限度地提高充电效率,无人机必须适当地安排飞回充电塔。开发了一种多智能体DRL方法来实现无人机和充电塔之间的协同能量共享。[27]的作者旨在通过最小化平均信息年龄(AoI)来从gu中收集最新的信息。一架无人机被使用作为一个中继节点,以协助信息传输到接收机。[28]的作者使用无人机作为边缘云,为物联网设备提供数据处理服务。其目标是最小化无人机的能源消耗,同时满足服务质量(QoS)的要求。
[25]的作者旨在导航一群无人机,以在部分观察下为移动用户提供最佳的通信覆盖。他们提出了一种随机DRL策略,即软深度递归图网络(SDRGN)方法,通过分布式在线学习来降低训练成本。考虑到无人机运动导致的非凸性和信道状态信息的不可用性,采用深度q学习算法更新无人机的位置,采用凸性差算法迭代更新无人机的传输波束形成和无人机-ue关联。[30]的作者考虑了速率分割多址(RSMA),在UAV辅助的无线网络中同时为多个gu提供服务,目标是最大化总容量。
[31]的作者还考虑了多无人机辅助下行无线网络的RSMA,以最大化多用户遍历和率。[32]的作者考虑使用无人机作为飞行基地,为多个无人机提供服务。gus向无人机的上行信息传输遵循非正交多址(NOMA)策略来提高频谱效率。GUs的NOMA传输也在[33]中被研究,它考虑了一个多无人机辅助的车辆通信网络。

3.系统模型

在这里插入图片描述

我们考虑一个有一个RBS和多个u架无人机的无人机辅助无线网络为多个gu服务,如图1a所示。无人机的集合表示为N = {1,2,……,N},而无人机的集合表示为M = {1,2,……,M}。由于GUs和RBS之间的堵塞或距离较大,GUs和RBS之间无法获得直接联系。无人机可以飞越无人机,收集无人机的传感数据,然后将信息带到RBS。每个GU都可以从无人机的射频波束形成信号中获取能量,为其电池充电并维持其运行。每架无人机都有F个天线,而GU只有一个天线。通过波束形成优化,无人机可以控制其能量传输到不同的GUs,也可以适应上行传输速率。每个GU的传感数据可以通过主动射频通信或无源后向散射通信[34]上传到无人机,这取决于其能源状态信道状况交通需求。在收集到GUs的感知信息后,无人机将信息转发给RBS。

3.1. UAV Trajectory Planning

无人机轨迹规划在时槽框架结构中实现,如图1b所示。每个时隙都有一个固定长度的τ,它被进一步分为三个子时隙,用于飞行、感知和报告阶段。无人机可以飞到第一子槽τf中的最佳位置,可以在感知子槽τs时收集gu的信息,然后可以在子槽τd中向RBS报告该信息。在传感子槽τs中,无人机采用时分协议来收集GU信息。特别是,在无人机的覆盖范围下的每个GU都被分配了一个迷你插槽τz。所有GUs都可以通过主动或被动通信将信息上传到无人机。此外,当其他GUs主动传输时,每个Gu可以获取射频能量。第三个子插槽τd用于无人机向RBS报告其信息。我们假设无人机-gu和无人机-rbs信道条件在每个时间段都是恒定的,并且随着无人机的飞行轨迹可能在不同的时间段发生变化。

与[17]类似,每个UAV-i的轨迹可以被定义为一组不同时间段内的位置,即Li=[`i(t)]t∈T。每个位置由三维(3D)坐标指定,即 ℓ i ( t ) = ( x i ( t ) 、 y i ( t ) 、 z i ( t ) ) \ell_i (t) =(xi (t)、yi (t)、zi (t)) i(t)=xi(t)yi(t)zi(t)。设 ℓ 0 ( t ) \ell_0(t) 0(t) 表示RBS的位置, d i , 0 ( t ) d_{i,0}(t) di,0(t) 表示插槽-t中UAV-i与RBS之间的距离。考虑到无人机-i在有限的速度vi (t)≤vmax下向di (t)方向移动,无人机-i在下一个时间段的位置可以是更新为 ℓ i ( t + 1 ) = ℓ i ( t ) + v i ( t ) τ f d i ( t ) \ell_i(t + 1)=\ell_i (t) + v_i (t)τ_f d_i (t) i(t+1)=i(t)+vi(t)τfdi(t)。我们有以下不等式来调节无人机的移动性:

在这里插入图片描述

其中 d m i n d_{min} dmin 表示两架无人机之间保证安全的最小允许距离。

4.优化算法

5.仿真结果

6.总结

补充

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wei *

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值