CFR虚拟遗憾最小化算法基础

虚拟遗憾最小化算法[Counterfactual Regret Minimization,CFR]

基础理论

博弈问题分类

  1. 按照效用值之和:零和博弈、非零和博弈
  2. 按照参与人数:二人博弈、多人博弈
  3. 按照博弈双方的动作序列性:同时博弈、序贯博弈
    (正则式博弈:博弈动作作出后,博弈结束)

博弈论基本概念与符号

正则式博弈
正则式博弈包含元素(N, A, u)在这里插入图片描述
扩展式博弈
在这里插入图片描述

博弈问题分类

算法框图

  1. 遗憾匹配算法框图(cfr的前身)

随机选取策略 δ 1 \delta^1 δ1,对于可选动作集 A i A_i Ai中的动作 a a a,存储计算的遗憾值为:
R i T ( a ) = ∑ T = 1 T ( μ i ( a , σ − i t ) − μ i ( σ i t , σ − i t ) ) R^T_i(a)=\sum^T_{T=1}(\mu_i(a,\sigma^t_{-i})-\mu_i(\sigma^t_{i},\sigma^t_{-i})) RiT(a)=T=1T(μi(a,σit)μi(σit,σit))
然后策略计算为:
σ i T + 1 ( a ) = R i T , + ( a ) ∑ b ∈ A i R i T , + ( b )   . \sigma^{T+1}_{i}(a)=\frac{R^{T,+}_i(a)}{\sum_{b\in{A_i}}R^{T,+}_i(b)}\,. σiT+1(a)=bAiRiT,+(b)RiT,+(a).
当分母为0时,随机选取下一个动作策略。
遗憾匹配算法框图

  1. cfr算法框图

CFR算法框图

  • 如果不能遍历计算机所有节点的遗憾值,那么可以采用虚拟遗憾最小化算法来进行模拟计算。
  • 在遗憾匹配中,玩家通过跟踪所有过去所玩游戏的遗憾值来指导将来的决策,从而使遗憾值逐步减小,当遗憾值为 0(即玩家对没采取任何一种动作都表示不遗憾)时,证明当前策略最优,达到博弈的纳什均衡。

概念定义

- 平均整体遗憾:
玩家 i 进行 T 次游戏,在第 t 次游戏使用策略 ,则玩家 i在这 T 次游戏中的平均整体遗憾为:
在这里插入图片描述
即玩家的平均整体遗憾值是平均意义下每局选择策略与在 T 轮迭代中收益最大策略的收益差值。

- 平均策略
在这 T T T 次游戏中,到达每个信息集 I ∈ L i I \in{L_i} ILi ,对于每个动作 a ∈ A ( I ) a\in{A(I)} aA(I) ,定义平均策略
在这里插入图片描述
平均策略以信息集到达概率加权,定义了 T T T 次游戏中每个信息集上每个动作的平均概率。

平均策略、平均整体遗憾、近似纳什均衡策略

planning net

参考文献

[1]代佳宁. 基于虚拟遗憾最小化算法的非完备信息机器博弈研究_代佳宁[D]. 哈尔滨工业大学, 2017.
[2]滕雯娟. 基于虚拟遗憾最小化算法的德州扑克机器博弈研究_滕雯娟[D]. 哈尔滨工业大学, 2015.

  • 3
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值