cfr
文章平均质量分 89
spacetrotter1
。
展开
-
大语言模型结合强化学习:Cicero征战强权外交论文源码解析
总结,整体工程看下来对GPU的需求不小,需要256个GPU训练,对代码速度的需求很高,但是这么来看,对比从文本中学习,利用强化学习的方式更符合我们人类学习的方式对特定任务的识别也会更精准,自从Noam Brown大神加入了openai后twitter也宣布在数学上达到了78%的准确率,应该是利用了类似强化学习的学习方式。在网络版本的强权外交中,由于玩家之间可以私下聊天,这个博弈可以理解为结合语言沟通的多人非完美信息博弈游戏,类似德州扑克。网络的训练是通过Rl实现的,具体使用一个叫PIKL的算法实现。原创 2024-02-22 11:03:19 · 1116 阅读 · 0 评论 -
Pluribus cfr博弈论实战德州(1)如何理解纳什均衡
假设德州扑克进行到河牌阶段,公牌为四张2带一张红桃三,当前底池为2,先行动的玩家50%拿到AA 50%拿到QQ,先行动玩家可以在check(过牌) 和bet(下注)1中做出选择,当先行动的玩家check(过牌)时,后行动的玩家可以在check(过牌) 和bet 1(过牌)中进行选择,当先行动的玩家bet 1时,对手可以在fold(弃牌)和跟注(进行选择)我们就有了下面的博弈树。对于玩家1,如果拿到AA 100%下注1,如果拿到QQ 66% check 33% 下注1。我们根据纳什均衡求解器求出的结果为。原创 2023-12-07 13:01:23 · 1878 阅读 · 1 评论