计算机空战综述

机器智已迈入深度学时代随着机器的爆发,以深度学习和深度强化学习为代表的自演进智能算法在空战行为涌现方面表现出巨大优势诸多基于此类方法研发的智能空战项目逐渐被提 

一、发展历程

自 20世纪 60年代 以来,智能空战理论和工 程实践研究获得了国内外学术界与工业界的持续关注 。 回顾其发展历程,从表象上看,历经了专家 机动逻辑、自动规则生成、规则演进、机器学习及 演示验证等 5个主要历史阶段。 从本质上看,智能空战研究正在从以人类经验为主的传统专家系统迈向以机器智能自我演进为特征的全新脉络。

智能空战的研究最早起步于20世纪 60  Burgin   Owens   1969  NASA兰利研心的资助下为该研究中心的微分机动模拟器的机动决策软件。AML可以模拟敌方的战斗机与操控模拟器员进时对战,同时也可以通过操控模拟对抗中交战双方2架飞机来飞机及 武器     数研   工作。AML系统开发耗 时近 20虽然是人类历史上第一次用人工智能替代飞行员的大胆尝试但受限于当的技术条件仍存在诸多缺憾 。提升AML的规则库耗 时冗长且非 常依赖飞行员对决策结果的评估;系统需将飞行员对 机动动作的偏好选择以硬编码的形式写入决策算法中

20世纪 90年代开发了战与评系统--PALADIN系统。 系统由战术决策生成器 战术机动模拟器以及微分机动模拟器 3主要部 并不依靠飞行的经验建立知识库而是依据飞机本身数据以及空战战术的对抗仿真结果建立知识库从而可以为缺少实战经验的新型飞机 提供丰富决策支持 。 除此之PALADIN统的规则库采用了模块化设计思路从而将运算速率大幅提升了 90~100

2010年,麻省理工学院公开了空中对抗自适 应动态规划ADP系统 。 ADP 的主要思想是通过 线性或者非线性的结构近似地表达所处状态的效用函数,并通过值迭代或者策略迭代方法生成决策策略 

2016 6辛辛那提大学与美国空军研究实验室同披露  阿尔法空 系统 ,其核心算法采用遗传模糊理论体系 基于人类专家知识构建了多个并行模糊推理机 根据其映射关系确定输入输出连接进行实时决解决了需要连续实时决策的高维复杂问题 阿尔法空战系统的初始策略结构主要依赖人类的先验知识建模由于目前人类对空战机理的认识具有一定程度上的局限性其解空间搜索能力很大程度上受限于人类设计好的结构。

二、决策方法

由于空战具有高动态性、强实时性、不确定性和非完美信息等特点,该问题通常被建模为非完美信息下的多优化目标动态博弈问题 。 目前针对智能空战决策问题的研究主要涵盖 3大方向:用于建模及求解空战攻防博弈问题的博弈理论、将空战问题建模为多目标决策优化问题以及对应的优化理论、具有自学习能力可以不断进化的人工智能决策技术。

(一)基于博弈理论的方法

微分博弈是博弈论的重要分支,属于动态博弈范畴,适用于解决空战中追逃博弈问题;影响图博弈是创造一种基于专家知识的概率拓扑结构和参数学习方式来代替飞行员,能以可控的、可解释的以及可理解的方式求解空战策略

(1)微分博弈

微分博弈一般用于求解近距空战中格斗双方的机动占位决策问题 。通过将分数矩阵结合微分博弈,形成了一种分层决策架构 。其顶层的行为决策用于输出宏观的机动意图,如进攻、防守等;底层的机动决策用于输出具体的机动指令,如指令过载、横滚角速率等。

(2)图博弈

用于描述一种概率决策结构通过将影响决策的随机变量 进行拓扑排序以构建层次决策能力从而简化最终决策随机变量后验概率计算难题 考虑到其概 率决策结构由人类专家建立因此这种方法使决 策过程天然具备透明性可追溯可理解等优特性 

(二)基于优化理论的方法

空战决策问题也可以被形式化为多目标优化问题,并使用经典数值优化算法进行求解动态 规划遗传算法叶斯推理统计学优化等算法均在空战决策领  程 度 应用。基于优化理论的空战决策方法在多个细分应 用领域均有涉及,但由于空战状态空间的连续性 和复杂性,大多数数值优化方法在求解这种高维度、大规模的问题时,其计算性能往往无法满足空 战决策的实时性需求。 因此,这类方法大多用于离线的空战策略优化研究。

(三)基于人工智能的方法

人工智能类的空战决策方法主要包括基于规则的专家系统和基于深度神经网络的深度学习和深度强化学习自演进机器学习类方法 。

(1)基于规则的专家系统

明确地 定义决策系统 什么情况下该做什么”,是人工智能的初级形态  由于专家系统易于工程化且决策 行为具有完全可解释的优使其在工程中得到 了更为广泛的应用但也存在一定局限对于基于规则的专家系统而言空战规则是其核心现有智能空战产生式规则的设计主要依赖人类空战专家完成 ;由于空战状态空间维度较为庞大规则设计过程中往往会面临  数灾难问题 即使一对一空战规则能够通过较为理想的设计覆盖实战情况但随着交战智能 体数量的线形增长规则设计的复杂度呈指数级增长建模具有该复杂度的空战智能体仅仅依靠 单纯的人工手段是不可能完成  基于规则算法其自主决策能力存在很明显的认知上限行为表现不会超出设计者预先设定的能力因此空战智能体的行为缺乏多样性更无法演化出不 同于人类做法的创新性战术行为

(2)基于深度学习的空战行为克隆

具有空战经验的飞行员在仿真器中亲身参与空战决策 仿真系统将每个决策时刻下的状态和对应的飞行员决策动作记录下来作为训练样本,然后进行离线训练通过神经网络强大的拟合能力拟合出空战态势和此态势下所需的决策动作之间的函数关这相当于机器在克隆飞行的作 在应用部署时将实时空战状态输入训练好的神经网络模型进行前向传播出决策指令 。

(3)基于深度强化学习的自博弈对抗

提出了深度 Q 网络, 率先实现了人类专家级别的操控水平 深度强化学习一般被形式化为马尔决策过程求解问题智能体从当前环境获取观测产生决策动作并与环境进行交互环境根据智能体的表现反 馈奖赏给智能体智能体收到奖赏后不断修正自己 的行为好的奖赏将会激励智能体续做出一致行相反则将惩罚智能体使其避免做出类似行为 度强化学习智能体通过大 以最大化预期奖赏的方式进行学习和进化,以获取最优策略。

 三、智能空战发展趋势分析

(一) 智能空战需求发展——— 从平  能力建设 到体系协同建设

纵观以往空战的发展历程可以看出各代战斗机的研发均以提高单机作战效能为主通过提高战斗机在空战过程观察决策行动(OODA)  环节的能力来提高整体作战效能 随着信息化时代的繁荣以及智能化时代的到来空战逐步向体系 博弈对抗发展各平台间的信息交互成为体系建设的基石而智能则贯穿于整个空战博弈体系对抗的 OODA过程之中  未来空战将以博弈体系建设为 中心重点发展智能态势感知体系智能态势认知体系智能博弈对抗决策体系以及分式异构平台协同作战体系

(二) 智能  战应用发展———  飞行 员助手   空战专家

随着未来先进作战思想和武器装备的不断发未来空战环境也逐渐向强对抗高动态强干 强不确定性等高度复杂环境转变对智能空战 技术的需求也从飞行员助手向空战专家演变人 工智能技术相比于人类飞行员在信息获取反应  计算速度技战术动作等方面具有绝对优 可突破人类固有战术认知与生理机能限制在未来空战  占据主导地位  随着计算机科学 机器学习技术大数据等新技术的快速迭代与军 事作战研究融合愈发紧密的智能技术必定引发空 战体系装备及相关技术的一系列革新也必将引 发未来智能空战形态的进一步变革

(三)  智能空 战技术发展 从以人类智能为主 到以机器智能为主

智能空战技术正在由传统的博弈理论和优化理论向具有自学习能力的人工智能理论发展 传统方法以飞机本体为中心由人类主导构建空战对抗的过程模型求解空战策  限于人类认知边界模型的表达能力以及策略的求解能力 得出的空战策略往往无法超越人类的固有认知 而下一代具有自学习能力的人工智能方法可以通 过自博弈训练的方式学习到超越人类认知的空战 策略是一种全新的以机器智能为主的发展模式 与此 该模式面临着不确定性可解释性迁移性以及可协同性问题这些将成为未来机器智能空战模式的重点发展方向

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值