论文阅读—《Fuzzy Reinforcement Learning Algorithm for the Pursuit-Evasion Differential Games 》

最新推荐文章于 2025-03-11 12:54:21 发布

大鱼治不了水

最新推荐文章于 2025-03-11 12:54:21 发布

阅读量2.4k

点赞数 3

分类专栏：文献阅读文章标签：强化学习控制器

本文链接：https://blog.csdn.net/DAYUZHIBULESHUI/article/details/122229200

版权

文献阅读专栏收录该内容

5 篇文章

订阅专栏

本文提出了一种模糊强化学习算法，用于解决多智能体追逃游戏中追捕者群体捕获速度优越的逃跑者的问题。通过结合Apollonius圆技术和编队控制策略，定义奖励函数使追捕者能分散并有效地更新其模糊逻辑控制器参数，以适应逃跑者的智能策略。追捕者通过学习调整行动以避免彼此碰撞并形成包围逃跑者的态势。逃跑者利用Apollonius圆策略寻找逃脱机会，增加被捕获的时间。模拟仿真显示了算法的有效性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文链接：Fuzzy Reinforcement Learning Algorithm for the Pursuit-Evasion Differential
Games with Superior Evader

摘要

本文提出了一种模糊强化学习技术，该技术使追逃（PE）差分游戏中的追捕者群体能够学习如何以分散的方式捕获单个优秀的逃跑者。逃跑者的优势在于它的最大速度，超过游戏中最快追捕者的速度。文章使用了fuzzy actor-critic learnong Automaton （FACLA）算法以及Apollonius circle 技术和特定的编队控制策略，用于为每个追捕者定义必要的奖励函数，这使得每个追捕者能准确地更新其值函数。因此，追捕者将通过调整其模糊逻辑控制器 (FLC) 参数来采取正确的行动。还采用了编队控制策略，使得在捕获过程中，追捕者在逃跑者周围的分布角度尽可能保持不变（呈包围态势）。此外，还可以用于避免它们之间的碰撞。假设逃跑者是一个优秀的智能体，其策略是在逃跑过程中利用Apollonius circle 技术不断寻找间隙，如果有间隙，选择间隙的路径逃跑，否则改变方向，增加抓捕时间。

Introductin

追捕逃避游戏（PE game）是一种差异（different）游戏，参与者被分为两组，每组有一个或多个参与者，一组称为追捕者，另一组称为逃跑者。追捕组的主要目标是尽可能快地捕获逃跑组的所有参与者，而逃跑组的目标是逃跑或尽可能地增加捕获时间。追捕游戏可以定义为零和游戏(zero-sum)，也可以定义为一个目标冲突的优化问题。然而，现有的微分博弈理论不适用于有两个以上参与者的PE微分博弈，这是由于难以指定游戏的终端状态（2追1的情况下，一旦逃跑者被一个追捕者抓住，另外一个追捕者没有任何终点状态），另一个方面，维度爆炸是难以解决的。如果游戏中有几个更优秀的逃跑者，问题会更复杂。
本文主要从学习的角度解决多智能体PE游戏中存在superior逃跑者的问题。

捕获的必要条件

请自行查看Apollonius circle的知识
追捕者定义为 $p_i$ ，逃跑者定义为 $e$ ， $V_p,V_e$ 代表追捕者和逃跑者的最大速度（ $V_p<V_e$ ）。 $U$ 是Apollonius circle上的点
在这里插入图片描述

当视距与逃跑者的方向夹角 $\beta_i<\beta_{max}$ ，追捕者总能找到一个角度 $\alpha_i$ ，以确保抓到逃跑者。当追捕者方向在 $\angle{AEB}$ 范围时，总是能抓住逃跑者，否则逃跑者逃逸。
$\beta_{max}=arcsin(\frac{V_p}{V_e})$
一个追捕者可以在 $2\beta_{max}$ 的范围内捕获到逃跑者。覆盖逃跑者所需要的最少的追捕者的数量为：
$n_{min}=\frac{2\pi}{2\beta_{max}}=\frac{\pi}{arcsin(\frac{V_p}{V_e})}\Rightarrow\frac{V_p}{V_e}\geqslant sin(\frac{\pi}{n})$

追捕者套逃跑者的策略

强化学习actor-critic算法

奖励设定

**追捕者的奖励设定：**追捕者的奖励函数结构基于Apollonius circle的概念以及编队控制策略。如果逃跑者在其捕获角度内，这种情况下，追捕者根据角度获得奖励。如果逃跑者逃出追捕者的范围，追捕者根据编队控制策略获得奖励（详见：Formation control in multi-player pursuit evasion
game with superior evaders）。