DeepCFR中文总结

给小老板干活用到,想找找相关帖子发现很少,故开贴记录

摘要:

CFR是解决大型非完美信息博弈的主要框架。它通过迭代遍历博弈树收敛到均衡。为了处理规模非常大的博弈,通常在运行CFR之前使用抽象。抽象的游戏常用表格型CFR解决,它的解决方案被映射回完整的游戏。这个过程可能是有问题的,因为抽象的方面通常是手动的和需要专业知识的,抽象算法可能会错过博弈重要的细微差别,还有一个鸡和蛋的问题,因为确定一个好的抽象需要提前了解博弈的均衡。本文介绍了深度反事实遗憾最小化,一种CFR形式,通过使用深度神经网络来近似CFR在整个游戏中的行为,从而避免了对抽象的需要。深度CFR是有原则的,并在大型扑克牌游戏中取得了强大的性能。这是CFR在大型游戏中取得成功的第一个非表格变体。

常见符号及传统CFR的定义见论文,不再赘述。

DeepCFR的目标是近似于CFR的行为,而不需要在每个信息集上计算和积累遗憾,而是通过深度神经网络在类似信息集上进行泛化。
DeepCFR包含价值网络以及策略网络,价值网络V输入为,输出V(I,a)。我们希望V(I,a)与CFR的遗憾值R(I,a)接近
策略网络的输出近似于平均策略,使用独立的空间存储每个玩家的采样信息集概率向量。
如果迭代次数和每个价值网络模型较小,可以不用训练最后的策略网络而是保存每次迭代的价值网络。在实际的训练中,随机抽样价值网络,玩家基于网络生成的策略进行博弈。这消除了最终平均策略网络的函数逼近误差,但需要存储所有先验的价值网络。
在这里插入图片描述
网络的输入为当前的信息集(当前的牌面以及历史动作),输出为每个动作的概率。
在价值网络中,输出向量表示输入信息集上每个动作的预测优势。在平均策略网络中,输出被视为行动的概率分布的对数。

训练过程

在这里插入图片描述
使用从CFR算法采样获得的遗憾值以及平均策略训练网络。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值