基于路径-博弈混合策略的无人机空战机动决策

文章设计了一种基于路径-博弈混合策略的决策算法,通过解耦水平和垂直机动决策,分别采用改进的Q-learning和纳什均衡理论。实验结果显示,新算法在一对一空战对抗中比传统方法更有效,提高了规划效率和决策品质。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

源自:现代防御技术

作者:张瀚文  甘旭升  魏潇龙  童荣甲

“人工智能技术与咨询”  发布

摘 要

针对无人机的自主空战机动决策问题,设计了基于路径-博弈混合策略的决策算法。首先根据无人机飞行控制过程中,水平机动和垂直机动可以解耦的原理,提出了相解耦的自主决策机制,使用路径规划实现水平机动决策,使用博弈理论实现垂直机动决策。为提升决策环境的灵活性,设计了能够自适应调整规划范围和分辨率的动态栅格环境。基于QL算法设计路径规划模型,并使用双Q表学习机制改进算法,有效提升了路径规划质量。基于纳什均衡理论构建垂直机动算法模型,根据不同的态势环境设计了代价计算函数,实现了无人机的垂直机动决策。最后,针对一对一空战对抗情景开展仿真验证,验证了算法的有效性,相对于传统基于三维规划空间下的机动决策,可有效缩短规划耗时,提升规划品质。

关键词

无人机, 机动决策, Q-learning, 纳什均衡, 空战

引 言

随着无人机技术的发展,越来越多的有人机任务可被无人机替代,不断加剧战场的无人化进程[1]。特别是在空战场领域,有人-无人协同作战概念发展迅速,使得空中作战样式更为丰富,进一步增加了空战在现代作战中的地位作用[2]。其中,无人机空战一直是世界各国研究的焦点,一旦走向实战将彻底颠覆现代空战作战理念。但由于无人机自主决策能力的不足,无人机空战始终无法走向实战,成为限制无人机作战应用的一大制约因素[3-4],对此,国内外都展开了广泛研究。

文献[5]使用粒子群算法和人工势场法相混合的方法实现无人机空战机动决策,实现了一对一空战的机动决策,决策规划空间在三维空间内实施,但决策时长接近1 s。文献[6]使用模糊数学的思想改进基本博弈决策机制,提出基于直觉模糊的空战博弈决策算法,算法可在7类机动动作间选择决策,结合改进差分进化算法求解最优混合策略。但单纯基于博弈策略仅能基于局部信息进行决策,缺少全局信息的考虑。文献[7]通过生物免疫算法实现无人机的自主决策。免疫算法主要是通过模仿生物的免疫记忆过程实现算法的自学习功能,但该算法在较大空间内的规划决策效率较低,算法效率受规划空间影响显著。文献[8]在空中态势判断基础上基于纳什均衡理论实现敌机目标的分配,可实现多机协同空战。但同样只能利用局部信息进行决策。文献[9]使用改进的Q-learning算法实现无人机的机动决策,基于态势信息矩阵进行多机目标协同,实现了多机空战机动决策。但文中只对目标分配规划效率指标进行了说明和优化,对单机机动决策的综合耗时并未进行详细说明。文献[10]使用神经网络实现无人机的空战机动决策,但对神经网络的训练始终是技术的难点,想要进行完备的训练和持续的优化具有较大的难度和工作量,若训练不够充分将持续影响决策品质,导致空战失利。文献[11]使用改进强化学习算法实现无人机的空战决策机动,通过加入启发式因子的方式提升学习算法寻优性能,具有一定参考价值。文献[12]则是提出了一种基于强化遗传算法的空战机动决策算法,通过分类器的设计可改进传统遗传算法只能对显式目标进行建模的缺陷,但该文对最终的规划效率问题分析不透彻,而空战问题对规划效率有较高要求。

综上所述,当前对无人机空战机动决策问题普遍采用了神经网络、仿生算法、强化学习、博弈论等方法,但在三维空间内进行规划决策过程中,因为规划空间较大,在规划效率与规划品质方面往往难以兼顾。本文将针对无人机空战机动决策问题,基于强化学习和博弈理论提出一种混合算法,实现高效的机动决策。

1 飞行控制模型

无人机飞行控制模型是将机动决策指令转换为机动动作的技术基础。无人机空战机动过程主要是垂直和水平方向上的机动,状态的改变主要通过仰角、航迹偏角和速度的改变实现,控制量主要为滚角、转弯率和推力变量。由此可以得出运动学方程为

图片

(1)

式中:v为无人机速度;γ 为无人机仰角;β 为无人机航迹偏角。

无人机的动力学方程为

图片

(2)

式中:m为无人机质量;L为无人机升力;F为无人机最大推力;η 为无人机的推力系数;μ 为无人机滚角;D为空气阻力。

阻力、升力的计算方法又可以表示为

图片

(3)

式中:q为动压;S为机翼面积;ρ 为空气密度;Cd 为阻力系数;Cl 为升力系数。控制变量为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值