Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game

最新推荐文章于 2023-09-11 21:11:41 发布

大鱼治不了水

最新推荐文章于 2023-09-11 21:11:41 发布

阅读量2.4k

点赞数

分类专栏：文献阅读文章标签：强化学习

本文链接：https://blog.csdn.net/DAYUZHIBULESHUI/article/details/122298193

版权

文献阅读专栏收录该内容

5 篇文章 3 订阅

订阅专栏

论文地址：Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game

Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game

摘要

使用模糊actor-critic和卡尔曼滤波技术解决追击（PE）问题，两个或两个以上的追捕者追击一个逃跑者。actor和critic都是模糊推理系统（FIS），卡尔曼滤波被用来估计逃跑者的下一个位置，追捕者根据这个估计找到逃跑者的运动方向，以避免他们之间的碰撞，减少捕获时间。假设每个追捕者只知道逃跑者的瞬时位置，同时假设他们之间没有任何类型的交流，追捕者将其他同类追捕者视为环境的一部分。

PE游戏

在这里插入图片描述
PE游戏模型如上图所示，运动方程定义为：
$\dot{x_i}=V_icos\theta_i$ $\dot{y_i}=V_isin\theta_i$ $\dot{\theta_i}=\frac{V_i}{L_i}tan u_i$
$i$ 是追捕者 $p$ 和逃跑者 $e$ ,( $x_i,y_i$ )是智能体的位置， $\theta_i$ 是方向， $L_i$ 是智能体的轴距， $u_i$ 是转向角， $u_i\in[-u_{imax},u_{imax}]$ , $V_i$ 是由转向角控制的智能体速度，为避免滑动，定义为 $V_i=V_{imax}cos(u_i),V_{imax}$ 是智能体的最大速度。
设置场景追捕者速度快于逃跑者， $V_p>V_e$ ，但机动性能较差, $u_p<u_e$
追捕者的控制策略是使得追捕者和逃跑者之间的角度差趋于0。
逃跑者的控制策略是提高逃跑者的机动性，使得追捕者和逃跑者之间的距离最大，可以通过以下两种方式：
1.追捕者和逃跑者之间大于特定距离 $d$ ，则逃跑者的控制策略：
$u_e=tan^{-1}(\frac{y_e-y_p}{x_e-x_p})-\theta_e$
2.追捕者和逃跑者之间小于特定距离 $d$ ，则逃跑者的控制策略：
$u_e=(\theta_p+\pi)-\theta_e$
当追捕者和逃跑者之间的距离小于特定值 $l$ 时，成功捕获，这个特定值称为捕捉半径：
$l=\sqrt{(x_e-x_p)^2+(y_e-y_p)^2}$

两个追捕者一个逃跑者

假设每个智能体都没有关于其默认策略或者其他智能体的任何策略，每个追捕者只知道逃跑者的瞬时位置，反之亦然，

在这里插入图片描述
追捕者的输入：追捕角度差（速度矢量和视线矢量之差），和它的倒数
输出：转向角
逃跑者的输入：速度矢量和预期逃跑方向的角度差，和它的倒数
输出：转向角

大鱼治不了水

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game

论文地址：Kalman Fuzzy Actor-Critic Learning Automaton Algorithm for the Pursuit-Evasion Differential Game摘要使用模糊actor-critic和卡尔曼滤波技术解决追击（PE）问题，两个或两个以上的追捕者追击一个逃跑者。actor和critic都是模糊推理系统（FIS），卡尔曼滤波被用来估计逃跑者的下一个位置，追捕者根据这个估计找到逃跑者的运动方向，以避免他们之间的碰撞，减少捕获时间。假设每个追捕者只知道逃跑
复制链接

扫一扫