@[TOC](Rufus Isaacs-differential games)
符号
Value:博弈值; Velocity:速度向量;speed:速度大小
博弈定义
状态变量point x:
1.初始状态已知
2.与玩家决策(控制变量)即时相关
3.n维空间(状态空间)中的点的坐标-状态变量的值
full information
状态变量对所有玩家均可知
partial information
boundary -surface
best payoff = Value minmax 的目标,双方均最优表现
控制变量:
**KE(kinematic equation):**运动学方程
case1:moving craft
状态变量:
x1,x2:描述物理位置(求导=速度分解)
x3:方向;求导即:方向改变率=速度*曲率
x4:速度;求导即:加速度
x5:路径曲率;求导即:??
控制变量(加速器tan角):
ϕ
1
;
ϕ
2
\phi_{1};\phi_{2}
ϕ1;ϕ2
case2:Pursuit game
position:heading, speed,及所有相关状态变量
1.若P知道自己及E position,P怎么做?
2.best:
2.1 需要定义payoff
yes/no=game of kind ->关注E逃离到指定区域:捕捉地点与指定区域的距离
H
(
s
)
H(s)
H(s) 还要明确捕捉条件
maximize/minimize=game of degree ->关注P有限时间捕捉:捕捉时间
∫
G
(
x
,
ϕ
,
φ
)
d
t
\int G(x,\phi,\varphi)dt
∫G(x,ϕ,φ)dt, 引入t作为状态变量
integral payoff:
H
(
s
)
=
0
H(s)=0
H(s)=0
terminal payoff:
G
=
0
G=0
G=0
2.2 P minimize payoff
利用已知E position,推断E规划,超前E?–>optimal pursuit 与optimal evasion并存
case3:杀人司机
1v1: Vp>Ve; 恒速; 捕捉:Dpe<=l(捕捉半径)
P:选择曲率,转向半径R ,可瞬时改变
E:,可瞬时改变,path 必须有一个tangent
2.strategy
控制变量、t 是状态变量的函数
detection device:弄清状态变量
decision device:选择控制变量
3.example
1.追逐者与逃逸者
1V1;Vp>Ve;payoff:捕捉时间
2.守护者与侵略者
1V1;同速;守护区域C;payoff:捕捉点距离C的距离
Q: 二者是否均最优策略?
解的本质:
解最优策略->KE积分得到最优路径