【论文阅读】Hierarchical Reinforcement Learning for Air-to-Air Combat 基于分层强化学习的空战决策

风雨潇潇一书生

已于 2022-03-14 16:57:49 修改

阅读量4.6k

点赞数 6

分类专栏：智能机动决策文章标签：空战决策分层强化学习智能决策狗斗

于 2022-03-03 19:54:44 首次发布

本文链接：https://blog.csdn.net/weixin_40493501/article/details/117325595

版权

本文探讨了DARPA的AlphaDogfight Trials（ADT）中，分层强化学习应用于空战决策的方法。研究结合了分层架构和最大熵强化学习，模拟F-16的空战环境，通过策略选择器动态切换底层策略，以适应不同对手。在ADT中，该方法取得了优异成绩，证明了其在复杂空战情境中的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Title：Hierarchical Reinforcement Learning for Air-to-Air Combat

标题：基于分层强化学习的空战决策

来源：https://www.researchgate.net/publication/351298817

作者：Adrian P. Pope∗, Jaime S. Ide 等

B. Markov decision process (MDP)

C.Maximum Entropy Reinforcement Learning

D. Actor-Critic Methods

E. Soft Actor-Critic

F. Hierarchical Reinforcement Learning（分层强化学习）

4、ADT SIMULATION ENVIRONMENT（ADT 仿真环境）

V 智能体架构（AGENT ARCHITECTURE）

A 底层策略

B 策略选择器

Abstract

AI在国防工业上面变的越来越重要，这已经在ADT上被证明了。ADT寻求验证算法的可行性，改算法能够驾驶一架F16飞机在空对空仿真环境中。作为ADT中的一员，洛克希德·马丁的方法是组合分层架构和强化学习，综合专家经验到回报函数中，支持策略模块化。在ADT竞赛（8个竞争对手），该方法获得了第二名的成绩，并在匹配赛中打败了USAF的武器教练课程的一名毕业生。

Artificial Intelligence (AI) is becoming a critical component in the defense industry, as recently demonstrated by DARPA‘s AlphaDogfight Trials (ADT). ADT sought to vet（寻求审查） the feasibility of AI algorithms capable of piloting an F-16 in simulated air-to-air combat. As a participant in ADT, Lockheed Martin‘s (LM) approach combines a hierarchical architecture with maximum-entropy reinforcement learning (RL), integrates expert knowledge through reward shaping, and supports modularity of policies. This approach achieved a 2nd place finish in the final ADT event (among eight total competitors) and defeated a graduate of the US Air Force’s (USAF) F-16 Weapons Instructor Course in match play.

1、Introduction

【ACE项目背景】DARPA的ACE项目试图推进并建立可靠的空空作战自主权，目前自主空战仅限于规则系统，例如自动飞行和地形避障。在战斗机飞行领域中，学习视距内作战包含很多基础的机动技能（BFM），这些机动是变成一个可靠的协同飞行员所必须的。为了让自动系统在复杂的交战中更有效，例如压制敌防空、护航、点防御，BFM需要首先被掌握。基于此原因，ACE选择狗斗作为切入点来构建可靠的先进自动系统。ACE项目在实飞演习中达到顶峰。

1、seeks to advance and build trust in air-to-air combat autonomy
2、encompass many of the basic flight maneuvers (BFM)
3、suppression of enemy air defenses, escorting, and point protection
4、starting point 切入点

【ADT背景】ADT是ACE项目的先驱，用于规避风险。在ADT中，选择了8个团队，使用的方法包括基于系统的规则和端到端的机器学习框架。通过竞技，团队在一个高保真的F-16仿真环境中进行一对一狗斗，这些混战是通过对抗智能体而进行的，包含DARPA提供的智能体（扮演不同的决角色，例如快速水平飞行，模拟导弹拦截任务），其他竞赛团队智能体和富有经验的飞行员。

本文将给出环境、设计智能体、讨论竞赛结果、列举未来的工作计划以进一步发展的技术。本文使用分层强化学习，利用一些特殊的策略，根据当前的交战态势，动态选择。

2、related work

自从1950年代，关于如何构建算法实现自动空战的研究已经开始，一些研究利用基于规则的方法解决了这个问题，使用专家知识来制定应对的机动策略，应用到不同的态势中。其他的探索研究利用多种方法将空战场景编码为优化问题，进行计算求解。

部分研究依靠博弈理论方法，为离散动作集建立实例函数，而其他的研究使用DP，在大多数这些文章中，在环境和算法复杂度中取得权衡，以在适合的时间内获得近似最优解。（In many of these papers, trade offs are made in the environment and algorithm complexity to reach approximately optimal solutions in reasonable time）一个值得注意的工作使用遗传模糊树来构建智能体，能够打败一名毕业的飞行教员，在AFSIM仿真环境中。

最近DRL被用到这个问题中，例如，文献【12】在一个自定义的3维环境中训练智能体，能够打败人类。文献【9】评估了一些学学习算法。总的来说，大量的RL方法要么使用低保真度的仿真环境，要么将动作空间抽象到高水平的行为或战术。

ADT的仿真环境相比较其他的研究来说是独一无二的高保真环境。该环境提供了一个六自由度的F-16动态飞行模型，直接接受输入到飞行控制系统中。该模型在开源的JSBSim中