基于强化学习的带落角约束的制导律研究

源自:航空尖兵

作者:康冰冰  姜涛 曹建  魏晓晴 

“人工智能技术与咨询”  发布

摘 要

针对以特定角度攻击面目标的制导律设计问题,采用深度确定性策略梯度算法构建强化学习制导律模型,设计了模型状态、奖励规则及制导环境。通过设定不同的初始条件和攻击角度,训练强化学习制导律模型,获得了稳定的制导律。强化学习制导律能够使导弹以设定的落角命中固定目标,以较小的落角误差命中低速运动面目标。仿真结果表明,与带落角约束的最优制导律相比,带落角约束的强化学习制导律的约束角度收敛速度更快,加速度变化更加平滑,制导末时刻的加速度值更小,适应战场环境的能力更强。

关键词

制导律, 强化学习, 深度确定性策略梯度, 落角约束, 马尔可夫, 智能算法

引 言

毁伤目标首先考虑的因素是武器弹药能否命中目标或者脱靶量是否在一定的毁伤范围内。与非制导武器相比, 制导武器极大的提高了命中目标的精度, 保证了毁伤效果。制导律是制导武器提高命中精度的核心之一, 制导律一般通过最优控制、 李雅普诺夫稳定性理论、 滑模控制等算法[1]设计, 最常用的制导律是比例导引律及其偏置形式[2]。

在实际作战中, 弹目交会情形和目标易损特性等也极大的影响作战使用效率, 如攻击混凝土结构、 钢制结构等坚硬目标时, 弹着角过小容易发生跳弹; 攻击舰船、 建筑物等目标时, 导弹以一定的方向攻击目标的易损部位, 可以增加毁伤效果。因此, 针对特定目标, 尤其是地面、 海面目标, 制导武器以一定的角度攻击目标, 可以达到更好毁伤效果。

针对固定目标, 文献[3]利用计算几何学设计了制导律, 调整终点碰撞线, 导弹能以指定落角攻击目标, 通过调整轨迹长度控制导弹飞行时间; 文献[4]利用直线飞行的虚拟领弹建立几何关系, 采用最优控制使跟踪弹飞行轨迹与虚拟领弹同步, 实现了特定落角攻击目标; 文献[5]利用最优控制推导带落角约束的偏置比例制导律; 文献[6]推导了三维协同制导律, 制导过程分为协同、 比例导引两个阶段, 基于此研究了导弹以不同的落角攻击目标的协同制导律[7]; 文献[8]利用李雅普诺夫稳定性定理, 设计制导误差并进行收敛设计, 实现了具有固定落角的协同制导; 文献[9]以比例制导律为基础设计了具有固定落角约束的制导律, 且收敛时间固定。

针对具有约束的制导问题, 传统的设计方法一般计算比较复杂, 有的还需要做一些近似处理。近年来, 随着人工智能的发展, 智能算法开始进入武器领域, 文献[10]综述了智能航迹规划算法, 对强化学习、 神经网络、 深度学习等算法进行了分析; 文献[11]利用深度神经网络预测导弹撞击目标的时间, 实现导弹协同攻击固定目标; 文献[12]针对机动目标采用DDPG设计了制导律, 与比例制导律、 改进的比例制导律相比, 脱靶量更小, 拦截效果更好; 文献[13]采用Q-learning、 EBDQN设计了导航比具有自适应特性的末制导律, 与传统方法相比, 脱靶量更小, 更加稳定; 文献[14]设计了DQN与神经网络结合的制导律, 与DQN制导律相比, 脱靶量更小; 文献[15]设计了基于TD3算法的制导律, 制导律的泛化特性较好; 文献[16]设计了基于TRPO的强化学习制导律, 与比例制导律相比, 具有更好的拦截效果; 文献[17]设计了基于蒙特卡洛和Q-learning的两种强化学习的导航比, 与传统比例制导律相比, 具有更好的拦截效果; 文献[18]基于分层强化学习算法研究了空战决策, 结果表明训练的模型能有效提高辅助决策效率; 文献[19]利用DDPG算法构建了制导、 控制一体化框架, 算法直接输出舵偏量, 该算法的能耗更低。

比例制导律及其变型是应用广泛的制导律, 当弹目交会状态有一定约束时, 尤其是目标存在一定的速度时, 传统制导律能否适应复杂的战场环境值得分析。由于强化学习在制导律设计上展现出了独特的优势, 受此启发, 本文采用强化学习算法, 针对具有落角约束的制导问题展开研究, 并与传统的最优制导律(扩展比例制导律)对比分析, 验证了强化学习制导律的有效性和对战场环境的适应性。

1 问题描述

如图1所示, 采用二维平面图描述空面导弹攻击固定目标的情形, 导弹简化为平面上的一个点, 并假定导弹速度恒定, 加速度只能改变速度的方向。图中, T为要攻击的固定目标, 坐标在原点为(0,0); 空面导弹M末制导初始时刻位于(xM, yM); 速度是恒定值为vM; 加速度为aM; LOS为弹目视线; l为弹目距离; η为弹道倾角; θ为弹目视线角; θF为终端落角; ζ为方向误差角。由于末制导导引头需要对目标进行探测, 因此, 假定方向误差角

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值