【论文阅读】Hierarchical Reinforcement Learning for Air-to-Air Combat 基于分层强化学习的空战决策

本文探讨了DARPA的AlphaDogfight Trials(ADT)中,分层强化学习应用于空战决策的方法。研究结合了分层架构和最大熵强化学习,模拟F-16的空战环境,通过策略选择器动态切换底层策略,以适应不同对手。在ADT中,该方法取得了优异成绩,证明了其在复杂空战情境中的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Title:Hierarchical Reinforcement Learning for Air-to-Air Combat

标题:基于分层强化学习的空战决策

来源:https://www.researchgate.net/publication/351298817

作者:Adrian P. Pope∗, Jaime S. Ide 等

目录

Abstract

1、Introduction

2、related work

3、Background

A、RL【介绍强化学习】

B. Markov decision process (MDP)

C.Maximum Entropy Reinforcement Learning

D. Actor-Critic Methods

E. Soft Actor-Critic

F. Hierarchical Reinforcement Learning(分层强化学习)

4、ADT SIMULATION ENVIRONMENT(ADT 仿真环境)

V 智能体架构(AGENT ARCHITECTURE)

A 底层策略

B 策略选择器


Abstract

AI在国防工业上面变的越来越重要,这已经在ADT上被证明了。ADT寻求验证算法的可行性,改算法能够驾驶一架F16飞机在空对空仿真环境中。作为ADT中的一员,洛克希德·马丁的方法是组合分层架构和强化学习,综合专家经验到回报函数中,支持策略模块化。在ADT竞赛(8个竞争对手),该方法获得了第二名的成绩,并在匹配赛中打败了USAF的武器教练课程的一名毕业生。

Artificial Intelligence (AI) is becoming a critical component in the defense industry, as recently demonstrated by DARPA‘s AlphaDogfight Trials (ADT). ADT sought to vet(寻求审查) the feasibility of AI algorithms capable of piloting an F-16 in simulated air-to-air combat. As a participant in ADT, Lockheed Martin‘s (LM) approach combines a hierarchical architecture with maximum-entropy reinforcement learning (RL), integrates expert knowledge through reward shaping, and supports modularity of policies. This approach achieved a 2nd place finish in the final ADT event (among eight total competitors) and defeated a graduate of the US Air Force’s (USAF) F-16 Weapons Instructor Course in match play.

1、Introduction

【ACE项目背景】DARPA的ACE项目试图推进并建立可靠的空空作战自主权,目前自主空战仅限于规则系统,例如自动飞行和地形避障。在战斗机飞行领域中,学习视距内作战包含很多基础的机动技能(BFM),这些机动是变成一个可靠的协同飞行员所必须的。为了让自动系统在复杂的交战中更有效,例如压制敌防空、护航、点防御,BFM需要首先被掌握。基于此原因,ACE选择狗斗作为切入点来构建可靠的先进自动系统。ACE项目在实飞演习中达到顶峰。

1、seeks to advance and build trust in air-to-air combat autonomy
2、encompass many of the basic flight maneuvers (BFM)
3、suppression of enemy air defenses, escorting, and point protection
4、starting point 切入点

【ADT背景】ADT是ACE项目的先驱,用于规避风险。在ADT中,选择了8个团队,使用的方法包括基于系统的规则和端到端的机器学习框架。通过竞技,团队在一个高保真的F-16仿真环境中进行一对一狗斗,这些混战是通过对抗智能体而进行的,包含DARPA提供的智能体(扮演不同的决角色,例如快速水平飞行,模拟导弹拦截任务),其他竞赛团队智能体和富有经验的飞行员。

本文将给出环境、设计智能体、讨论竞赛结果、列举未来的工作计划以进一步发展的技术。本文使用分层强化学习,利用一些特殊的策略,根据当前的交战态势,动态选择。

2、related work

自从1950年代,关于如何构建算法实现自动空战的研究已经开始,一些研究利用基于规则的方法解决了这个问题,使用专家知识来制定应对的机动策略,应用到不同的态势中。其他的探索研究利用多种方法将空战场景编码为优化问题,进行计算求解。

部分研究依靠博弈理论方法,为离散动作集建立实例函数,而其他的研究使用DP,在大多数这些文章中,在环境和算法复杂度中取得权衡,以在适合的时间内获得近似最优解。(In many of these papers, trade offs are made in the environment and algorithm complexity to reach approximately optimal solutions in reasonable time)一个值得注意的工作使用遗传模糊树来构建智能体,能够打败一名毕业的飞行教员,在AFSIM仿真环境中。

最近DRL被用到这个问题中,例如,文献【12】在一个自定义的3维环境中训练智能体,能够打败人类。文献【9】评估了一些学学习算法。总的来说,大量的RL方法要么使用低保真度的仿真环境,要么将动作空间抽象到高水平的行为或战术。

ADT的仿真环境相比较其他的研究来说是独一无二的高保真环境。该环境提供了一个六自由度的F-16动态飞行模型,直接接受输入到飞行控制系统中。该模型在开源的JSBSim中

在模型无关的分层强化学习中,学习表示是一项重要的任务。学习表示是指通过提取有用的信息和特征来将观察数据转化为表示向量。这些表示向量可以用于解决强化学习问题中的决策和行动选择。 模型无关的分层强化学习是指不依赖于环境模型的强化学习方法。它通常由两个部分组成:低层控制策略和高层任务规划器。低层控制策略负责实际的行动选择和执行,而高层任务规划器则负责指导低层控制策略的决策过程。 学习表示在模型无关的分层强化学习中起到至关重要的作用。通过学习适当的表示,可以提高对观察数据的理解能力,使得模型能够捕捉到环境中的重要特征和结构。这些表示可以显著减少观察数据的维度,并提供更高层次的抽象,从而简化了决策和规划的过程。 学习表示的方法多种多样,包括基于深度学习的方法和基于特征选择的方法。基于深度学习的方法,如卷积神经网络和循环神经网络,可以通过学习多层次的特征表示来提取环境观察数据的有用信息。而基于特征选择的方法则通过选择最有信息量的特征来减少表示的维度,从而简化了模型的复杂度。 总之,学习表示在模型无关的分层强化学习中起到了至关重要的作用。通过学习适当的表示,模型可以更好地理解观察数据并进行决策和规划。不同的方法可以用来实现学习表示,包括基于深度学习的方法和基于特征选择的方法。这些方法的选择取决于具体任务和问题的需求。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值