机器智能已迈入深度学习时代,随着机器学习的爆发,以深度学习和深度强化学习为代表的自演进智能算法在空战行为涌现方面表现出巨大优势,诸多基于此类方法研发的智能空战项目逐渐被提出 。
一、发展历程
自 20世纪 60年代 以来,智能空战理论和工 程实践研究获得了国内外学术界与工业界的持续关注 。 回顾其发展历程,从表象上看,历经了专家 机动逻辑、自动规则生成、规则演进、机器学习及 演示验证等 5个主要历史阶段。 从本质上看,智能空战研究正在从以人类经验为主的传统专家系统迈向以机器智能自我演进为特征的全新脉络。
智能空战的研究最早起步于20世纪 60 年 代,Burgin 和 Owens 自 1969 年起着手在 NASA兰利研究中心的资助下为该研究中心的微分机动模拟器开发名为自适应机动逻辑的机动决策软件。AML可以模拟敌方的战斗机与操控模拟器的飞行员进行实时对战,同时也可以通过操控模拟对抗中交战双方的2架飞机来实现飞机及 武器 系 统 的 参 数研 究 等 工作。AML系统开发耗 时近 20年,虽然是人类历史上第一次用人工智能替代飞行员的大胆尝试,但受限于当时的技术条件,仍存在诸多缺憾 。例如①提升AML的规则库耗 时冗长且非 常依赖飞行员对决策结果的评估;②系统需将飞行员对 机动动作的偏好选择以硬编码的形式写入决策算法中。
20世纪 90年代开发了战术引导研究与评估系统--PALADIN系统。 该系统由战术决策生成器 、战术机动模拟器以及微分机动模拟器 3个主要部分组成 。并不依靠飞行员的经验建立知识库,而是依据飞机本身数据以及空战战术的对抗仿真结果建立知识库,从而可以为缺少实战经验的新型飞机 提供丰富决策支持 。 除此之外,PALADIN系统的规则库采用了模块化设计思路,从而将运算速率大幅提升了 90~100倍。
2010年,麻省理工学院公开了空中对抗自适 应动态规划ADP系统 。 ADP 的主要思想是通过 线性或者非线性的结构近似地表达所处状态的效用函数,并通过值迭代或者策略迭代方法生成决策策略
2016年 6月,辛辛那提大学与美国空军研究实验室共同披露 了“ 阿尔法空 战”系统 ,其核心算法采用遗传模糊理论体系, 基于人类专家知识构建了多个并行模糊推理机, 根据其映射关系确定输入输出连接,进行实时决策,解决了需要连续实时决策的高维复杂问题。“ 阿尔法空战”系统的初始策略结构主要依赖人类的先验知识建模,由于目前人类对空战机理的认识具有一定程度上的局限性,其解空间搜索能力很大程度上受限于人类设计好的结构。
二、决策方法
由于空战具有高动态性、强实时性、不确定性和非完美信息等特点,该问题通常被建模为非完美信息下的多优化目标动态博弈问题 。 目前针对智能空战决策问题的研究主要涵盖 3大方向:用于建模及求解空战攻防博弈问题的博弈理论、将空战问题建模为多目标决策优化问题以及对应的优化理论、具有自学习能力可以不断进化的人工智能决策技术。
(一)基于博弈理论的方法
微分博弈是博弈论的重要分支,属于动态博弈范畴,适用于解决空战中追逃博弈问题;影响图博弈是创造一种基于专家知识的概率拓扑结构和参数学习方式来代替飞行员,能以可控的、可解释的以及可理解的方式求解空战策略
(1)微分博弈
微分博弈一般用于求解近距空战中格斗双方的机动占位决策问题 。通过将分数矩阵结合微分博弈,形成了一种分层决策架构 。其顶层的行为决策用于输出宏观的机动意图,如进攻、防守等;底层的机动决策用于输出具体的机动指令,如指令过载、横滚角速率等。
(2)图博弈
用于描述一种概率决策结构,通过将影响决策的随机变量 进行拓扑排序以构建层次决策能力,从而简化最终决策随机变量后验概率计算难题 。考虑到其概 率决策结构由人类专家建立,因此这种方法使决 策过程天然具备透明性、可追溯、可理解等优良特性 。
(二)基于优化理论的方法
空战决策问题也可以被形式化为多目标优化问题,并使用经典数值优化算法进行求解,如动态 规划、遗传算法、贝叶斯推理、统计学优化等算法均在空战决策领域得到了 一 定 程 度 的应用。基于优化理论的空战决策方法在多个细分应 用领域均有涉及,但由于空战状态空间的连续性 和复杂性,大多数数值优化方法在求解这种高维度、大规模的问题时,其计算性能往往无法满足空 战决策的实时性需求。 因此,这类方法大多用于离线的空战策略优化研究。
(三)基于人工智能的方法
人工智能类的空战决策方法主要包括基于规则的专家系统和基于深度神经网络的深度学习和深度强化学习自演进机器学习类方法 。
(1)基于规则的专家系统
明确地 定义决策系统“ 什么情况下该做什么”,是人工智能的初级形态 。 由于专家系统易于工程化且决策 行为具有完全可解释的优点,使其在工程中得到 了更为广泛的应用,但也存在一定局限:对于基于规则的专家系统而言,空战规则是其核心,而现有智能空战产生式规则的设计主要依赖人类空战专家完成 ;由于空战状态空间维度较为庞大,规则设计过程中往往会面临“ 维 数灾难”问题。 即使一对一空战规则能够通过较为理想的设计覆盖实战情况,但随着交战智能 体数量的线形增长,规则设计的复杂度呈指数级增长,建模具有该复杂度的空战智能体仅仅依靠 单纯的人工手段是不可能完成 的; 基于规则的算法其自主决策能力存在很明显的认知上限,其行为表现不会超出设计者预先设定的能力,因此空战智能体的行为缺乏多样性,更无法演化出不 同于人类做法的创新性战术行为。
(2)基于深度学习的空战行为克隆
具有空战经验的飞行员在仿真器中亲身参与空战决策, 仿真系统将每个决策时刻下的状态和对应的飞行员决策动作记录下来作为训练样本,然后进行离线训练,通过神经网络强大的拟合能力,拟合出空战态势和此态势下所需的决策动作之间的函数关系,这相当于机器在克隆飞行员的作 。在应用部署时,将实时空战状态输入训练好的神经网络模型进行前向传播,输出决策指令 。
(3)基于深度强化学习的自博弈对抗
提出了深度 Q 网络, 率先实现了人类专家级别的操控水平。 深度强化学习一般被形式化为马尔决策过程求解问题:智能体从当前环境获取观测,产生决策动作并与环境进行交互,环境根据智能体的表现反 馈奖赏给智能体,智能体收到奖赏后不断修正自己 的行为,好的奖赏将会激励智能体续做出一致行为,相反,则将惩罚智能体使其避免做出类似行为。 深度强化学习智能体通过大量述试错模式 ,以最大化预期奖赏的方式进行学习和进化,以获取最优策略。
三、智能空战发展趋势分析
(一) 智能空战需求发展——— 从平 台 能力建设 到体系协同建设
纵观以往空战的发展历程可以看出,各代战斗机的研发均以提高单机作战效能为主,通过提高战斗机在空战过程观察、判断、决策行动(OODA) 各 环节的能力来提高整体作战效能。 随着信息化时代的繁荣以及智能化时代的到来,空战逐步向体系 博弈对抗发展,各平台间的信息交互成为体系建设的基石,而智能则贯穿于整个空战博弈体系对抗的 OODA过程之中 。 未来空战将以博弈体系建设为 中心,重点发展智能态势感知体系、智能态势认知体系、智能博弈对抗决策体系以及分式异构平台协同作战体系。
(二) 智能 空 战应用发展——— 从“ 飞行 员助手 ” 到“ 空战专家”
随着未来先进作战思想和武器装备的不断发展,未来空战环境也逐渐向强对抗、高动态、强干 扰、强不确定性等高度复杂环境转变,对智能空战 技术的需求也从飞行员助手向空战专家演变,人 工智能技术相比于人类飞行员在信息获取、反应 时 间、计算速度、技战术动作等方面具有绝对优 势,可突破人类固有战术认知与生理机能限制,将 在未来空战 中 占据主导地位 。 随着计算机科学、 机器学习技术、大数据等新技术的快速迭代,与军 事作战研究融合愈发紧密的智能技术必定引发空 战体系、装备及相关技术的一系列革新,也必将引 发未来智能空战形态的进一步变革。
(三) 智能空 战技术发展— 从以人类智能为主 到以机器智能为主
智能空战技术正在由传统的博弈理论和优化理论向具有自学习能力的人工智能理论发展 。传统方法以飞机本体为中心,由人类主导构建空战对抗的过程模型,求解空战策略 。 受限于人类的认知边界、模型的表达能力以及策略的求解能力, 得出的空战策略往往无法超越人类的固有认知。 而下一代具有自学习能力的人工智能方法可以通 过自博弈训练的方式学习到超越人类认知的空战 策略,是一种全新的以机器智能为主的发展模式。 与此同 时,该模式面临着不确定性、可解释性、可迁移性以及可协同性的问题,这些将成为未来机器智能空战模式的重点发展方向。