DeepCFR中文总结

最新推荐文章于 2025-04-28 18:22:34 发布

Leo_Mh

最新推荐文章于 2025-04-28 18:22:34 发布

阅读量1.1k

点赞数

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_36691985/article/details/127940344

版权

给小老板干活用到，想找找相关帖子发现很少，故开贴记录

摘要：

CFR是解决大型非完美信息博弈的主要框架。它通过迭代遍历博弈树收敛到均衡。为了处理规模非常大的博弈，通常在运行CFR之前使用抽象。抽象的游戏常用表格型CFR解决，它的解决方案被映射回完整的游戏。这个过程可能是有问题的，因为抽象的方面通常是手动的和需要专业知识的，抽象算法可能会错过博弈重要的细微差别，还有一个鸡和蛋的问题，因为确定一个好的抽象需要提前了解博弈的均衡。本文介绍了深度反事实遗憾最小化，一种CFR形式，通过使用深度神经网络来近似CFR在整个游戏中的行为，从而避免了对抽象的需要。深度CFR是有原则的，并在大型扑克牌游戏中取得了强大的性能。这是CFR在大型游戏中取得成功的第一个非表格变体。

常见符号及传统CFR的定义见论文，不再赘述。

DeepCFR的目标是近似于CFR的行为，而不需要在每个信息集上计算和积累遗憾，而是通过深度神经网络在类似信息集上进行泛化。
DeepCFR包含价值网络以及策略网络，价值网络V输入为，输出V(I,a)。我们希望V(I,a)与CFR的遗憾值R(I,a)接近。
策略网络的输出近似于平均策略，使用独立的空间存储每个玩家的采样信息集概率向量。
如果迭代次数和每个价值网络模型较小，可以不用训练最后的策略网络而是保存每次迭代的价值网络。在实际的训练中，随机抽样价值网络，玩家基于网络生成的策略进行博弈。这消除了最终平均策略网络的函数逼近误差，但需要存储所有先验的价值网络。
在这里插入图片描述
网络的输入为当前的信息集（当前的牌面以及历史动作），输出为每个动作的概率。
在价值网络中，输出向量表示输入信息集上每个动作的预测优势。在平均策略网络中，输出被视为行动的概率分布的对数。