Title:Hierarchical Reinforcement Learning for Air-to-Air Combat
标题:基于分层强化学习的空战决策
来源:https://www.researchgate.net/publication/351298817
作者:Adrian P. Pope∗, Jaime S. Ide 等
目录
B. Markov decision process (MDP)
C.Maximum Entropy Reinforcement Learning
F. Hierarchical Reinforcement Learning(分层强化学习)
4、ADT SIMULATION ENVIRONMENT(ADT 仿真环境)
Abstract
AI在国防工业上面变的越来越重要,这已经在ADT上被证明了。ADT寻求验证算法的可行性,改算法能够驾驶一架F16飞机在空对空仿真环境中。作为ADT中的一员,洛克希德·马丁的方法是组合分层架构和强化学习,综合专家经验到回报函数中,支持策略模块化。在ADT竞赛(8个竞争对手),该方法获得了第二名的成绩,并在匹配赛中打败了USAF的武器教练课程的一名毕业生。
Artificial Intelligence (AI) is becoming a critical component in the defense industry, as recently demonstrated by DARPA‘s AlphaDogfight Trials (ADT). ADT sought to vet(寻求审查) the feasibility of AI algorithms capable of piloting an F-16 in simulated air-to-air combat. As a participant in ADT, Lockheed Martin‘s (LM) approach combines a hierarchical architecture with maximum-entropy reinforcement learning (RL), integrates expert knowledge through reward shaping, and supports modularity of policies. This approach achieved a 2nd place finish in the final ADT event (among eight total competitors) and defeated a graduate of the US Air Force’s (USAF) F-16 Weapons Instructor Course in match play.
1、Introduction
【ACE项目背景】DARPA的ACE项目试图推进并建立可靠的空空作战自主权,目前自主空战仅限于规则系统,例如自动飞行和地形避障。在战斗机飞行领域中,学习视距内作战包含很多基础的机动技能(BFM),这些机动是变成一个可靠的协同飞行员所必须的。为了让自动系统在复杂的交战中更有效,例如压制敌防空、护航、点防御,BFM需要首先被掌握。基于此原因,ACE选择狗斗作为切入点来构建可靠的先进自动系统。ACE项目在实飞演习中达到顶峰。
1、seeks to advance and build trust in air-to-air combat autonomy
2、encompass many of the basic flight maneuvers (BFM)
3、suppression of enemy air defenses, escorting, and point protection
4、starting point 切入点
【ADT背景】ADT是ACE项目的先驱,用于规避风险。在ADT中,选择了8个团队,使用的方法包括基于系统的规则和端到端的机器学习框架。通过竞技,团队在一个高保真的F-16仿真环境中进行一对一狗斗,这些混战是通过对抗智能体而进行的,包含DARPA提供的智能体(扮演不同的决角色,例如快速水平飞行,模拟导弹拦截任务),其他竞赛团队智能体和富有经验的飞行员。
本文将给出环境、设计智能体、讨论竞赛结果、列举未来的工作计划以进一步发展的技术。本文使用分层强化学习,利用一些特殊的策略,根据当前的交战态势,动态选择。
2、related work
自从1950年代,关于如何构建算法实现自动空战的研究已经开始,一些研究利用基于规则的方法解决了这个问题,使用专家知识来制定应对的机动策略,应用到不同的态势中。其他的探索研究利用多种方法将空战场景编码为优化问题,进行计算求解。
部分研究依靠博弈理论方法,为离散动作集建立实例函数,而其他的研究使用DP,在大多数这些文章中,在环境和算法复杂度中取得权衡,以在适合的时间内获得近似最优解。(In many of these papers, trade offs are made in the environment and algorithm complexity to reach approximately optimal solutions in reasonable time)一个值得注意的工作使用遗传模糊树来构建智能体,能够打败一名毕业的飞行教员,在AFSIM仿真环境中。
最近DRL被用到这个问题中,例如,文献【12】在一个自定义的3维环境中训练智能体,能够打败人类。文献【9】评估了一些学学习算法。总的来说,大量的RL方法要么使用低保真度的仿真环境,要么将动作空间抽象到高水平的行为或战术。
ADT的仿真环境相比较其他的研究来说是独一无二的高保真环境。该环境提供了一个六自由度的F-16动态飞行模型,直接接受输入到飞行控制系统中。该模型在开源的JSBSim中