浅谈德州扑克AI核心算法：CFR

行者AI

于 2022-01-26 16:30:01 发布

阅读量8.1k

点赞数 1

文章标签：人工智能算法机器学习

本文链接：https://blog.csdn.net/suiyuejian/article/details/122704465

版权

本文详细介绍了德州扑克AI的核心算法——Counterfactual Regret Minimization(CFR)。从Regret Matching原理和实例开始，逐步解析CFR算法在序列博弈中的应用，以及CFR+和MCCFR等优化算法，展示了CFR如何处理不完全信息博弈的复杂决策问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文首发于行者AI

引言

自2017年AlphaGo打败世界围棋冠军柯洁后，人工智能彻底进入大众视野，一时间棋牌类的AI在人工智能界掀起了一股大风。其实早在AlphaGo之前，人们就对棋牌类的人工智能发起了挑战，从简单的跳棋、五子棋，到更加复杂的中国象棋、国际象棋，以及最近非常热门的围棋和德州扑克,数十年间也是硕果累累。而相对于跳棋、象棋等完全信息游戏，德州扑克不仅要根据不完全信息进行复杂决策，还要应付对手的虚张声势、故意示弱等招数，其对应的博弈树无论是广度还是深度都十分庞大，它也一直都是科学家们想要攻克的高山。而在AlphaGO打败柯洁的同年，德扑AI DeepStack和Libratus也先后在 “一对一无限注德州扑克” 上击败了职业扑克玩家,在不完全信息博弈中做出了里程碑式的突破，而他们所采用的的核心算法就是Counterfactual Regret Minimization(CFR)。

1. Regret Matching

1.1算法原理

CFR算法的前身是regret matching算法，在此算法中，智能体的动作是随机选择的，其概率分布与 positive regret呈正比， positive regret表示一个人因为过去没有选择该行动而受到的相对损失程度。

这里对Regret Matching算法中的符号做出若干定义：

$N=\left\{1,2,...,n\right\}$ 表示博弈玩家的有限集合。玩家 $i$ 所采用的的策略为 $\sigma_i$ 。
对于每个信息集 $I_i∈\xi_i,\sigma_i(I_i):A(I_i)→[0,1]$ ，是在动作集 $A(I_i)$ 上的概率分布函数。玩家 $i$ 的策略空间用 $\Sigma_i$ 表示。
一个策略组包含所有玩家策略，用 $\sigma=(\sigma_1,\sigma_2,...,\sigma_n)$ .
在博弈对决中，不同玩家在不同时刻会采取相应策略以及行动。策略下对应的动作序列发生概率表示为 $\pi^\sigma(h)$ ，且 $\pi^\sigma(h)=\prod_{i∈N}\pi_i^\sigma(h)$

这里的 $\pi^\sigma_i(h)$ 表示玩家 $i$ 使用策略 $\sigma_i$ 促使行动序列 $h$ 发生的概率，除了玩家 $i$ 以外，其他玩家通过各自策略促使行动序列 $h$ 发生的概率为： $\pi^\sigma_{-i}(h)=\prod_{i∈N/{i}}\pi_j^\sigma(h)$ 。
对于每个玩家 $i∈N,u_i:Z→R$ ，表示玩家的收益函数。
计算玩家在给定策略下所能得到的期望收益： $u_i(\sigma)=\Sigma_{h∈Z}u_i(h)\pi^\sigma(h)$ 。
纳什均衡：策略组 $\sigma=(\sigma^*_1,\sigma^*_2,...,\sigma^*_n)$ 是纳什平衡当且仅当对每个玩家 $i \in N$ ,满足条件： $u_i(\sigma)\geq max_{\sigma_i^`}(\sigma^*_1,\sigma^*_2,...,\sigma^*_n)$ 。
遗憾值：玩家在第T次采取策略的遗憾值为：
$R_i^T(a)=\Sigma_{T=1}^T(\mu_i(a,\sigma_{-i}^t)-\mu_i(\sigma_i^t,\sigma_{-i}^t))$

最低0.47元/天解锁文章