Pluribus cfr博弈论实战德州（1）如何理解纳什均衡

置顶 spacetrotter1

已于 2023-12-08 22:52:57 修改

阅读量2k

点赞数 47

分类专栏： pluribus cfr 虚拟遗憾值算法文章标签：机器学习人工智能

于 2023-12-07 13:01:23 首次发布

本文链接：https://blog.csdn.net/spacetrotter1/article/details/134852707

版权

cfr 同时被 3 个专栏收录

2 篇文章

订阅专栏

pluribus

1 篇文章

订阅专栏

虚拟遗憾值算法

1 篇文章

订阅专栏

最近发现在大火的llm之外ai博弈也有了很多的进展，Noam 做完Pluribus 后又利用博弈强化学习结合llm技术研发了Cicero，在强权外交这样的聊天桌游中学会插科打诨合纵连横取得前10%的成绩，并且对手完全没意识到是在和Ai对战。最近这个大神也跳槽去了OPENAI，估计是研发Q* ，相信强化学习结合博弈论和大语言模型等算法会在游戏，自动驾驶，机器人规划等方向上落地更多的方向，在这我也就结合德州这个环境分享下Pluribus的原理，技术难点等。

应该会写七八章，里面会用一些德州扑克的概念来辅助理解纳什均衡（我除了让Ai打自己从来不打），也会列一些虚拟遗憾值算法的论文，代码实现。

1如何理解纳什均衡

说起纳什均衡大家先想到的肯定是囚徒困境，囚徒困境的均衡解为两人都坦白，第一次看自然会把纳什均衡和厚黑学和联系在一起，这里咱们换个角度从德州诈唬比例和数学的角度帮助大家解释纳什均衡，他的定义是任何一位玩家在此策略组合下单方面改变自己的策略（其他玩家策略不变）都不会提高自身的收益，不要神话纳什均衡，他不能帮你求得整体利益最大化，也不能帮你求得个人利益最大化,但是可以在不清楚对方具体策略时提供一个不吃亏的策略，通过对比对手的策略和对手的纳什均衡的偏移可以协助判断对手的行为习惯，从而制定剥削策略帮助我们求得整体利益最大化。

这里我举一个德州扑克中的示例，来介绍纳什均衡是如何落地德州扑克这个场景中：

假设德州扑克进行到河牌阶段，公牌为四张2带一张红桃三，当前底池为2，先行动的玩家50%拿到AA 50%拿到QQ，先行动玩家可以在check(过牌) 和bet(下注)1中做出选择，当先行动的玩家check(过牌)时，后行动的玩家可以在check(过牌) 和bet 1(过牌)中进行选择，当先行动的玩家bet 1时，对手可以在fold（弃牌）和跟注（进行选择）我们就有了下面的博弈树