基于多智能体强化学习的空地网络抗干扰传输方法研究

【摘  要】提出了一种基于多智能体强化学习的抗干扰传输算法,旨在抵御空地一体化网络中的功率干扰,使所有用户的可达速率之和最大化。将优化问题转化为部分可观察马尔可夫决策过程问题,采用了集中式训练和分布式执行框架。在集中式训练过程中,每个智能体与环境交互获得的经验存储在经验回放池中,用于训练演员-评论员网络。在分布式执行过程中,每架无人机使用经过训练的演员网络根据观测结果输出动作,并调整其飞行位置和传输功率以提供联合服务。采用基于剪切和计数的改进近端策略优化算法来更新演员-评论员网络参数,使其在复杂的多智能体环境中更加有效。仿真结果表明,所提算法相较于对比算法具有更快的收敛速度,且在相同干扰条件下,所提算法比对比算法获取的用户可达和速率提升约68.9%。

【关键词】多智能体;强化学习;空地网络;抗干扰

0   引言

5G/6G等新一代移动通信技术通过超密集组网、跨频段使用、波束空间复用等方式大幅提升了频率复用度,实现了高速率、低时延、大容量传输。当地形环境较为复杂时,通信系统的节点分布较为稀疏,无法进行超密集组网,导致区域覆盖能力和“山中通”能力等面临较大挑战。无人机、无人升空平台等空基平台具有部署灵活、覆盖范围广等特点,为有效提升通信覆盖能力提供了一条新的思路。

无人机(UAV, Unmanned Aerial Vehicle)由于其灵活性和易控制性,可以在某些特殊场景提供高效可靠的无线通信[1]。特别是当地面基站无法提供服务时,UAV可以作为空中基站,为地面用户提供紧急通信[2]。无人机还广泛应用于物联网中,为设备应用收集数据[3]。无人机亦可作为中继节点,与远程节点建立可靠连接,抵御恶意干扰和窃听,保证无人机中继网络中的安全传输问题[4-5]。此外,研究UAV网络中的抗干扰问题也是一大研究热点,博弈论和凸优化理论广泛应用于UAV通信抗干扰方案设计。文献[6]将UAV视做中继节点,从博弈论视角出发构建斯坦伯格博弈模型,研究了空天地一体化网络在非理想信道状态信息条件下如何抵御恶意干扰问题。文献[7]应用交替优化和逐次凸逼近理论,将非凸问题进行转换,通过优化无人机的轨迹以及功率分配,最大化特定时间段内系统的平均保密速率。文献[8]研究了无人机网络的物理层安全问题,使得无人机基站在存在多个窃听者的情况下,通过协作干扰向多个信息接收器传输机密信息,提升了性能增益。然而,以上研究仅考虑了单个或少量的无人机场景,大规模无人机场景下的抗干扰传输问题仍需进一步研究。当环境发生变化时,所提出的优化算法可能会变得无效,难以满足实时决策的需求。

近年来,强化学习(RL, Reinforcement Learning)方法引起了广泛关注,用于解决传统数学方法无法处理的高复杂度优化问题。将强化学习、深度学习等智能算法应用于抗干扰传输是当前一大研究热点[9-13]。文献[9]针对无人机网络易受智能干扰机干扰,提出一种基于知识的强化学习方法,该方法利用领域知识来压缩智能体需要探索的状态空间,从而提高算法的收敛速度。文献[10]研究了窃听节点存在的条件下的无人机网络安全传输问题,提出了一种多智能体深度强化学习(MADRL, Multi-Agent Deep Reinforcement Learning)算法,通过联合优化无人机的轨迹、无人机发射机的发射功率和无人机干扰机的干扰功率来最大化安全容量。文献[11]考虑了一个合法无人机与智能窃听无人机的组合通信系统,通过构建零和博弈模型,并提出一种基于MADRL的算法,获得合法通信链路节点的策略,优化合法无人机的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

罗思付之技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值