CFR虚拟遗憾最小化算法基础

最新推荐文章于 2023-12-07 21:32:13 发布

qq_38977751

最新推荐文章于 2023-12-07 21:32:13 发布

阅读量1.2k

点赞数 3

文章标签：算法机器学习概率论

本文链接：https://blog.csdn.net/qq_38977751/article/details/119385324

版权

虚拟遗憾最小化算法[Counterfactual Regret Minimization,CFR]

基础理论
- 博弈问题分类
- 博弈论基本概念与符号
算法框图
参考文献

基础理论

博弈问题分类

按照效用值之和：零和博弈、非零和博弈
按照参与人数：二人博弈、多人博弈
按照博弈双方的动作序列性：同时博弈、序贯博弈
（正则式博弈：博弈动作作出后，博弈结束)

博弈论基本概念与符号

正则式博弈
正则式博弈包含元素（N, A, u）在这里插入图片描述
扩展式博弈

博弈问题分类

算法框图

遗憾匹配算法框图（cfr的前身）

随机选取策略 $\delta^1$ ，对于可选动作集 $A_i$ 中的动作 $a$ ，存储计算的遗憾值为：
$R^T_i(a)=\sum^T_{T=1}(\mu_i(a,\sigma^t_{-i})-\mu_i(\sigma^t_{i},\sigma^t_{-i}))$
然后策略计算为：
$\sigma^{T+1}_{i}(a)=\frac{R^{T,+}_i(a)}{\sum_{b\in{A_i}}R^{T,+}_i(b)}\,.$
当分母为0时，随机选取下一个动作策略。
遗憾匹配算法框图

cfr算法框图

CFR算法框图

如果不能遍历计算机所有节点的遗憾值，那么可以采用虚拟遗憾最小化算法来进行模拟计算。
在遗憾匹配中，玩家通过跟踪所有过去所玩游戏的遗憾值来指导将来的决策，从而使遗憾值逐步减小，当遗憾值为 0（即玩家对没采取任何一种动作都表示不遗憾）时，证明当前策略最优，达到博弈的纳什均衡。

概念定义

- 平均整体遗憾：
玩家 i 进行 T 次游戏，在第 t 次游戏使用策略tσ ，则玩家 i在这 T 次游戏中的平均整体遗憾为：
在这里插入图片描述
即玩家的平均整体遗憾值是平均意义下每局选择策略与在 T 轮迭代中收益最大策略的收益差值。

- 平均策略
在这 $T$ 次游戏中，到达每个信息集 $\in{L_i}$ ，对于每个动作 $a\in{A(I)}$ ，定义平均策略
在这里插入图片描述
平均策略以信息集到达概率加权，定义了 $T$ 次游戏中每个信息集上每个动作的平均概率。

平均策略、平均整体遗憾、近似纳什均衡策略

planning net

参考文献

[1]代佳宁. 基于虚拟遗憾最小化算法的非完备信息机器博弈研究_代佳宁[D]. 哈尔滨工业大学, 2017.
[2]滕雯娟. 基于虚拟遗憾最小化算法的德州扑克机器博弈研究_滕雯娟[D]. 哈尔滨工业大学, 2015.

qq_38977751

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
CFR虚拟遗憾最小化算法基础

虚拟遗憾最小化算法(Counterfactual Regret Minimization)如果不能遍历计算机所有节点的遗憾值，那么可以采用虚拟遗憾最小化算法来进行模拟计算。在遗憾匹配中，玩家通过跟踪所有过去所玩游戏的遗憾值来指导将来的决策，从而使遗憾值逐步减小，当遗憾值为 0（即玩家对没采取任何一种动作都表示不遗憾）时，证明当前策略最优，达到博弈的纳什均衡。概念定义平均整体遗憾：玩家 i 进行 T 次游戏，在第 t 次游戏使用策略tσ ，则玩家 i在这 T 次游戏中的平均整体遗憾为：
复制链接

扫一扫