Monte Carlo Counterfactual Regret Minimization_monte carlo sampling for regret minimization in ex-CSDN博客

本文链接：https://blog.csdn.net/qq_36691985/article/details/116793223

本文介绍虚拟遗憾最小化算法，通过计算遗憾值更新策略以接近纳什均衡。蒙特卡洛CFR（MCCFR）重新定义虚拟价值和遗憾值的无偏估计，对博弈树采样。还阐述了结果采样、外部采样方式，以及平均策略计算方法，分析了MCCFR的时间和空间复杂度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Monte Carlo Sampling for Regret Minimization in Extensive Games（MCCFR）

虚拟遗憾最小化算法是基于时间步长的一个迭代过程，玩家们采取的策略集定义为（ $\sigma_1^t$ , $\sigma_2^t$ ），对于每个动作和信息集计算遗憾值。然后通过遗憾值最小化计算一个新的策略集（ $\sigma_1^{t+1}$ , $\sigma_2^{t+1}$ ）。为了达到近似纳什均衡，CFR算法需要记住一个关键，接近纳什均衡的策略是一个平均策略 $\bar\sigma^T$ ；每次迭代后策略都会被更新，该算法对每个信息集上的每个行动保持表格式的累积遗憾，这决定了后续的策略。

采样虚拟遗憾

玩家i利用策略 $\sigma$ 的虚拟价值定义为
$v_{i}(\sigma, I)={\sum_{z\in\Z_I}\pi_{-i}^{\sigma}(z[I]) \pi^\sigma(z[I], z)}u_i(z)$
这个值代表了当到达信息集 $I$ 时的期望效用。虚拟遗憾值是没有选择策略 $\sigma_{I\rightarrow a}^t$ 信息集 $I$ 中的动作 $a$ 而是遵循了另外的策略 $\sigma_i^t$ 。此时的遗憾值表示为
$r^t(I,a) = v_{i}(\sigma_{I\rightarrow a}^t, I) - v_{i}(\sigma^t, I)$
蒙特卡洛CFR（MCCFR）的主要思想是重新定义虚拟价值和遗憾值的无偏估计，MCCFR仅仅采样了博弈树的一部分并且通过遗憾最小化对树进行采样，此时应用虚拟价值的估计值而不是真实值。由于估计值是无偏的，所以估计值接近期望的真实值。只要采样的方式合理，就可以很容易达到近似的均衡。

定义 $\mathcal Q = \{Q_1,Q_2,...\}$ 是 $Z$ 的子集( $\cup_{Q\in\mathcal Q}Q\in Z$ ) 。此时要注意 $Q$ 并不是一个partition因为我们并不要求 $Q_1\cap Q_2 = \phi$ 。我们称一个 $Q_i$ 为终端历史的一个块（block），并且集合 $\mathcal Q$ 是所有可能块的集合。在每一迭代轮次 $t$ 中，MCCFR首先通过一些采样规则采样出一个块 $Q_i$ ，并且每个块的抽样概率 $q_i>0$ 。然后MCCFR计算每个信息集中的虚拟值和遗憾。使
$\sum_{j:z\in Q_j}q_j$
表示某些轮次迭代采样的块包含 $z$ 的概率。
采样时的虚拟值定义为：
$\tilde{v}_{i}(\sigma, I \mid j)=\sum_{z \in Q_{j} \cap Z_{I}} \frac{1}{q(z)} \pi_{-i}^{\sigma}(z[I]) \pi^{\sigma}(z[I], z) u_{i}(z)$
此时我们需要保证 $\delta>0$ 。这里 $\delta$ 是采样z的最低概率。
当交集 $Q_j\cap Z_I$ 为空，这个块没有包含 $Z$ 的任意历史状态，所以此时的v值为0。

定理1 $\tilde{v}_{i}(\sigma, I \mid j)$ 的期望值等于原始CFR的value（ $v_{i}(\sigma, I)$ ），证明见参考文献。
定理一表明： $\tilde{v}_{i}(\sigma, I \mid j)$ 是 $v_{i}(\sigma, I)$ 的无偏估计。因此采样虚拟遗憾值为
$\tilde r^t(I,a) =\tilde v_{i}(\sigma_{I\rightarrow a}^t, I) -\tilde v_{i}(\sigma^t, I)$
这与真实的遗憾值在期望上相匹配。

MCCFR的时间复杂度取决于所使用的抽样方案。例如，在CFR中，每次迭代的时间与游戏树的大小成线性关系。如果一个游戏在根处包含一个单一的机会节点，并且在每个结果下面有4个相同大小的树，那么一次机会抽样CFR迭代所花费的时间大约是CFR的四分之一。另一方面，每个MCCFR实例(包括CFR)都存储策略集，并且空间复杂度为 $O(|C_1|+|C_2|)$ 。当存储空间受到限制，可以使用抽象技术来减少内存消耗。

Alt

蒙特卡洛虚拟遗憾最小化伪代码

结果采样

在结果采样MCCFR中，每个块包含一个终端历史。在每次迭代中，我们采样一个终端历史，并只更新该历史中的每个信息集。采样概率， $q_j$ 指定了终端历史的分布。我们要使用一个采样策略集 $\sigma'$ 表示这个分布，以便 $\pi^{\sigma'}(z)$ 。注意，任何采样策略的选择都会在块抽样概率 $q (z)$ 有一个特定的分布。
该算法对 $z$ 按照策略 $\sigma'$ 采样，并存储 $\pi^{\sigma'}(z)$ 。然后将单个历史向前遍历，计算每个玩家达到该历史每个前缀的概率 $\pi^{\sigma}_i(h)$ ，向后计算每个玩家进行历史中剩余动作的概率 $\pi^{\sigma}_i(h,z)$ 。在向后遍历过程中，计算每个访问到的信息集的抽样反事实遗憾(并将其加到总遗憾中)。
当使用结果抽样时，有两种情况。要么 $z [I] a$ 是 $z$ 的前缀（在我们的抽样历史中，在 $I$ 采取了行动a），要么 $z [I] a$ 不是 $z$ 的前缀(即在信息集 $I$ 的时候，玩家没有采取动作a)。两种情况更新遗憾值的公式不同，具体如下所示：
在这里插入图片描述
如何设计采样策略 $\sigma'$ 仍然是一个问题。对根据玩家的策略可能发生的信息集进行抽样是合理的。在此过程中，确保探索的最直接的方法是使用 $\epsilon$ -greedy的方法。当遍历树和信息集I时，概率 $\epsilon$ 统一随机选择一个动作，否则根据玩家当前的策略 $σ^t(I)$ 对其进行抽样。我们称这种抽样方法为 $\epsilon$ 策略探索。
由于只对单个历史序列进行采样，每次迭代在树的深度上都是线性的，不受游戏分支因素的影响。缺点是必须不断探索（explore），导致可能选择永远不会做出的动作。
在结果抽样中，单个抽样的历史可以为两个玩家重复使用，我们称这种为结果采样的parallel form

外部采样

在外部抽样中，我们只对对手的行动和机会结点进行采样（在玩家以外的结点），对于对手结点和机会结点的纯策略，即从 $\ { i } I\in \mathcal I_C\cup \mathcal I_{N\backslash \{i\}}$ 到 $A (I)$ 的每个确定性映射，都有一个block $Q_\tau\in\mathcal Q$ 。这个块的采样概率基于 $f_c和\sigma_{-i}$ 的分布，所以 $\ { i } σ − i ( I , τ ( I ) ) q_{\tau}=\prod_{I \in \mathcal{I}_{c}} \sigma_{c}(I, \tau(I)) \prod_{I \in \mathcal{I}_{N \backslash\{i\}}} \sigma_{-i}(I, \tau(I))$

if P(h) == i:
  # traverse all available actions, to illiminate influence of σ_i
  v[I] = {a: mccfr(h + [a], {**π_i, P(h): π_i[P(h)] * σ[t][I][a]}, i, t) for a in A[I]}
else:
  # sample one a from A[I]
  a = sample(A[I], σ[t][I])
  v[I][a] = mccfr(h + [a], {**π_i, P(h): π_i[P(h)] * σ[t][I][a]})

平均策略计算

当我们使用CFR算法时，能够接近均衡的策略实际上为 $\bar\sigma^T$ 。如果我们的目标是计算一个近似的平衡，那么当所有的迭代都完成之后得到的策略集就即为平均策略。
平均策略定义为 $\bar{\sigma}_{i}^{T}(I, a)=\frac{\sum_{t=1}^{T} \pi_{i}^{\sigma^{t}}(I) \sigma^{t}(I, a)}{\sum_{t=1}^{T} \pi_{i}^{\sigma^{t}}(I)}, I \in \mathcal{I}_{i}$ CFR中，在每个信息集上仅为每个动作累积分子，当要计算平均策略时，维护的值可以被其他动作的策略值规范化。信息集 $I$ 中动作 $a$ 的平均策略增量为 $\pi_i^{\sigma^t}(I)\sigma^t(I,a)$ ；在实验中，这个增量是由 $h\in I$ 的更小的增量 $\pi_i^{\sigma^t}(h)\sigma^t(I,a)$ 相加而成。也就是说，递归遍历是在游戏树而不是信息集树上。由于每次迭代都完成一幕，因此精确地计算了平均策略。
计算MCCFR中的平均策略通常不是很明确，因为每次迭代只访问了的一部分信息集。但是，平均策略的计算应该包含玩家T轮迭代中在那是如何行动的。

参考文献

[1]: MONTE CARLO SAMPLING AND REGRET MINIMIZATION FOR EQUILIBRIUM COMPUTATION AND DECISION-MAKING IN LARGE EXTENSIVE FORM GAMES
[2]: Monte Carlo Sampling for Regret Minimization in Extensive Games