虚拟遗憾最小化算法[Counterfactual Regret Minimization,CFR]
基础理论
博弈问题分类
- 按照效用值之和:零和博弈、非零和博弈
- 按照参与人数:二人博弈、多人博弈
- 按照博弈双方的动作序列性:同时博弈、序贯博弈
(正则式博弈:博弈动作作出后,博弈结束)
博弈论基本概念与符号
正则式博弈
正则式博弈包含元素(N, A, u)
扩展式博弈
算法框图
- 遗憾匹配算法框图(cfr的前身)
随机选取策略
δ
1
\delta^1
δ1,对于可选动作集
A
i
A_i
Ai中的动作
a
a
a,存储计算的遗憾值为:
R
i
T
(
a
)
=
∑
T
=
1
T
(
μ
i
(
a
,
σ
−
i
t
)
−
μ
i
(
σ
i
t
,
σ
−
i
t
)
)
R^T_i(a)=\sum^T_{T=1}(\mu_i(a,\sigma^t_{-i})-\mu_i(\sigma^t_{i},\sigma^t_{-i}))
RiT(a)=T=1∑T(μi(a,σ−it)−μi(σit,σ−it))
然后策略计算为:
σ
i
T
+
1
(
a
)
=
R
i
T
,
+
(
a
)
∑
b
∈
A
i
R
i
T
,
+
(
b
)
.
\sigma^{T+1}_{i}(a)=\frac{R^{T,+}_i(a)}{\sum_{b\in{A_i}}R^{T,+}_i(b)}\,.
σiT+1(a)=∑b∈AiRiT,+(b)RiT,+(a).
当分母为0时,随机选取下一个动作策略。
- cfr算法框图
- 如果不能遍历计算机所有节点的遗憾值,那么可以采用虚拟遗憾最小化算法来进行模拟计算。
- 在遗憾匹配中,玩家通过跟踪所有过去所玩游戏的遗憾值来指导将来的决策,从而使遗憾值逐步减小,当遗憾值为 0(即玩家对没采取任何一种动作都表示不遗憾)时,证明当前策略最优,达到博弈的纳什均衡。
概念定义
- 平均整体遗憾:
玩家 i 进行 T 次游戏,在第 t 次游戏使用策略tσ ,则玩家 i在这 T 次游戏中的平均整体遗憾为:
即玩家的平均整体遗憾值是平均意义下每局选择策略与在 T 轮迭代中收益最大策略的收益差值。
- 平均策略
在这
T
T
T 次游戏中,到达每个信息集
I
∈
L
i
I \in{L_i}
I∈Li ,对于每个动作
a
∈
A
(
I
)
a\in{A(I)}
a∈A(I) ,定义平均策略
平均策略以信息集到达概率加权,定义了
T
T
T 次游戏中每个信息集上每个动作的平均概率。
平均策略、平均整体遗憾、近似纳什均衡策略
planning net
参考文献
[1]代佳宁. 基于虚拟遗憾最小化算法的非完备信息机器博弈研究_代佳宁[D]. 哈尔滨工业大学, 2017.
[2]滕雯娟. 基于虚拟遗憾最小化算法的德州扑克机器博弈研究_滕雯娟[D]. 哈尔滨工业大学, 2015.