上财三分王-CSDN博客

原创 pluribus最后一课：实时策略的搜索

计算完蓝图策略之后就是计算实时策略。与完全信息博弈不同，德扑是非完全信息博弈，玩家只知道自己的手牌不知道对面的手牌，在进行策略计算的时候完全信息博弈可以根据决策点叶子节点的值进行选择，譬如在决策点p有两个动作a和b，a行动之后对应的节点是p1，b行动之后对应的节点是p2，如果p1节点的值是-1而p2节点的值是1那么p节点就会选择b行动作为他的策略。但是非完美信息博弈却不同，节点p1和p2的值是不固定的，譬如如果你一直选择b，那么对手会猜到你会走b的路径，那么他会调整自己的策略剥削你的策略。一个对局搜索的算法

2020-07-10 12:54:40 844 1

原创 pluribus第三课：CFR最小虚拟遗憾值算法

!在这里插入图片描述

2020-07-06 16:45:12 2190 1

原创 pluribus第二课：利用三角形不等公式加速k-means

pluribus第二课：利用三角形不等公式加速k-means 写在前面利用三角形不等公式加速k-meansc++并行的经验写在前面本文主要的目的是记录自己实现pluribus的过程中，编程和程序执行过程中遇到的问题！希望能和大家分享经验，这篇文章仍然讲的是聚类牌组的阶段。poker ai的前期数据处理的难点在于基础数据庞大，河牌阶段的牌组就有上亿种可能，对于这种较大的数据，程序的效率成为成败的关键，方案不好很可能在计算数周乃至数月的时间，最开始尝试的时候，我使用的是python 计算聚类，发现计算emd

2020-07-06 15:58:37 924

原创打败人类，Pluribus第一课，如何抽象德扑的牌组——Kmeans with EMD distance

打败人类，Pluribus第一课，如何像抽象德扑的牌组——Kmeans with EMD distance最近一直在看Pluribus相关的文献，开始研究实现德扑ai的第一步将牌组分类简化，根据Sam Ganzfried和Tuomas Sandholm的文章Potential-Aware Imperfect-RecallAbstraction with EarthMover’s Distance...

2019-12-28 11:19:11 1340 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 pluribus最后一课：实时策略的搜索

原创 pluribus第三课：CFR最小虚拟遗憾值算法

原创 pluribus第二课：利用三角形不等公式加速k-means

原创 打败人类，Pluribus第一课，如何抽象德扑的牌组——Kmeans with EMD distance

空空如也

空空如也

原创打败人类，Pluribus第一课，如何抽象德扑的牌组——Kmeans with EMD distance