【论文阅读】Hierarchical Reinforcement Learning for Air-to-Air Combat 基于分层强化学习的空战决策

本文探讨了DARPA的AlphaDogfight Trials(ADT)中,分层强化学习应用于空战决策的方法。研究结合了分层架构和最大熵强化学习,模拟F-16的空战环境,通过策略选择器动态切换底层策略,以适应不同对手。在ADT中,该方法取得了优异成绩,证明了其在复杂空战情境中的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Title:Hierarchical Reinforcement Learning for Air-to-Air Combat

标题:基于分层强化学习的空战决策

来源:https://www.researchgate.net/publication/351298817

作者:Adrian P. Pope∗, Jaime S. Ide 等

目录

Abstract

1、Introduction

2、related work

3、Background

A、RL【介绍强化学习】

B. Markov decision process (MDP)

C.Maximum Entropy Reinforcement Learning

D. Actor-Critic Methods

E. Soft Actor-Critic

F. Hierarchical Reinforcement Learning(分层强化学习)

4、ADT SIMULATION ENVIRONMENT(ADT 仿真环境)

V 智能体架构(AGENT ARCHITECTURE)

A 底层策略

B 策略选择器


Abstract

AI在国防工业上面变的越来越重要,这已经在ADT上被证明了。ADT寻求验证算法的可行性,改算法能够驾驶一架F16飞机在空对空仿真环境中。作为ADT中的一员,洛克希德·马丁的方法是组合分层架构和强化学习,综合专家经验到回报函数中,支持策略模块化。在ADT竞赛(8个竞争对手),该方法获得了第二名的成绩,并在匹配赛中打败了USAF的武器教练课程的一名毕业生。

Artificial Intelligence (AI) is becoming a critical component in the defense industry, as recently demonstrated by DARPA‘s AlphaDogfight Trials (ADT). ADT sought to vet(寻求审查) the feasibility of AI algorithms capable of piloting an F-16 in simulated air-to-air combat. As a participant in ADT, Lockheed Martin‘s (LM) approach combines a hierarchical architecture with maximum-entropy reinforcement learning (RL), integrates expert knowledge through reward shaping, and supports modularity of policies. This approach achieved a 2nd place finish in the final ADT event (among eight total competitors) and defeated a graduate of the US Air Force’s (USAF) F-16 Weapons Instructor Course in match play.

1、Introduction

【ACE项目背景】DARPA的ACE项目试图推进并建立可靠的空空作战自主权,目前自主空战仅限于规则系统,例如自动飞行和地形避障。在战斗机飞行领域中,学习视距内作战包含很多基础的机动技能(BFM),这些机动是变成一个可靠的协同飞行员所必须的。为了让自动系统在复杂的交战中更有效,例如压制敌防空、护航、点防御,BFM需要首先被掌握。基于此原因,ACE选择狗斗作为切入点来构建可靠的先进自动系统。ACE项目在实飞演习中达到顶峰。

1、seeks to advance and build trust in air-to-air combat autonomy
2、encompass many of the basic flight maneuvers (BFM)
3、suppression of enemy air defenses, escorting, and point protection
4、starting point 切入点

【ADT背景】ADT是ACE项目的先驱,用于规避风险。在ADT中,选择了8个团队,使用的方法包括基于系统的规则和端到端的机器学习框架。通过竞技,团队在一个高保真的F-16仿真环境中进行一对一狗斗,这些混战是通过对抗智能体而进行的,包含DARPA提供的智能体(扮演不同的决角色,例如快速水平飞行,模拟导弹拦截任务),其他竞赛团队智能体和富有经验的飞行员。

本文将给出环境、设计智能体、讨论竞赛结果、列举未来的工作计划以进一步发展的技术。本文使用分层强化学习,利用一些特殊的策略,根据当前的交战态势,动态选择。

2、related work

自从1950年代,关于如何构建算法实现自动空战的研究已经开始,一些研究利用基于规则的方法解决了这个问题,使用专家知识来制定应对的机动策略,应用到不同的态势中。其他的探索研究利用多种方法将空战场景编码为优化问题,进行计算求解。

部分研究依靠博弈理论方法,为离散动作集建立实例函数,而其他的研究使用DP,在大多数这些文章中,在环境和算法复杂度中取得权衡,以在适合的时间内获得近似最优解。(In many of these papers, trade offs are made in the environment and algorithm complexity to reach approximately optimal solutions in reasonable time)一个值得注意的工作使用遗传模糊树来构建智能体,能够打败一名毕业的飞行教员,在AFSIM仿真环境中。

最近DRL被用到这个问题中,例如,文献【12】在一个自定义的3维环境中训练智能体,能够打败人类。文献【9】评估了一些学学习算法。总的来说,大量的RL方法要么使用低保真度的仿真环境,要么将动作空间抽象到高水平的行为或战术。

ADT的仿真环境相比较其他的研究来说是独一无二的高保真环境。该环境提供了一个六自由度的F-16动态飞行模型,直接接受输入到飞行控制系统中。该模型在开源的JSBSim中

### Path环境变量的作用 为了在开发Java程序时能更便捷地使用`javac`和`java`等命令,配置Path环境变量是非常必要的[^2]。通过设置此环境变量,可以在任意位置执行这些工具而无需指定其完整路径。 ### 配置Path环境变量的方法 #### Windows操作系统下: 1. 打开系统的“控制面板”,找到并点击进入“系统和安全”下的“系统”。 2. 点击左侧菜单中的“高级系统设置”。这会弹出一个名为“系统属性”的窗口;在此窗口中选择“高级”选项卡,并点击最下方的“环境变量...”按钮。 3. 在弹出的新对话框里可以看到上方列出了当前用户的特定环境变量(即用户变量),下方则显示适用于整个计算机的所有账户的公共环境变量(即系统变量)。对于大多数情况来说,在任一部分添加都可满足需求,不过建议优先考虑向系统变量部分追加新条目以确保更改对所有使用者生效[^4]。 4. 接下来无论是修改现有项还是创建全新的一项来保存新的目录地址,请务必确认所填入的是目标应用程序安装文件夹的具体所在——例如针对JDK而言就是bin子文件夹的位置。 5. 完成编辑之后依次按下确定键关闭各个层级直至返回桌面即可完成全部操作过程。 ```bash set PATH=%PATH%;C:\Program Files\Java\jdk-11.0.1\bin ``` 上述脚本展示了如何临时性地更新Windows命令提示符内的PATH环境变量,其中`C:\Program Files\Java\jdk-11.0.1\bin`应替换为你实际安装JDK后的相应路径[^1]。 #### Linux/MacOS操作系统下: 可以通过编辑`.bashrc`或者`.zshrc`(取决于使用的shell) 文件实现永久性的变更: ```bash export PATH=$PATH:/Library/Java/JavaVirtualMachines/jdk-11.jdk/Contents/Home/bin ``` 这段代码同样需要依据个人电脑上的具体安装情况进行适当调整后再加入到对应的启动配置文档之中去[^3]。 ### 使用注意事项 当遇到无法识别命令的情况时,可能是因为未正确配置或应用了错误版本的Path环境变量。此时应该仔细检查输入的内容是否无误以及重启终端使最新的设定得以加载。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值