ASolutionToChinaCompetitivePokerUsingDeepLearning读后感

最新推荐文章于 2019-08-02 08:31:00 发布

彩虹-

最新推荐文章于 2019-08-02 08:31:00 发布

阅读量1.2k

点赞数 1

分类专栏： DL

本文链接：https://blog.csdn.net/laozitianxia/article/details/84897058

版权

DL 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这篇论文引用了腾讯的斗地主的数据，用CNN实现了斗地主自动出牌AI，这里只是将自己的理解做一个笔记，以防以后忘记。

上面是该论文的训练网络。输入数据使用的15*19*21的网络结构，下面介绍一下该结构主要的设计思路。15表示斗地主的每张牌，A到K加大小王。19的含义是分两层，前4代表每张牌的张数，分别表示1,2,3,4；后面15层代表牌型结构，具体牌型结构在原论文的Table 3表示。那15*19就可以表示一副牌局的所有信息。

重点是21这个数字，代表了21维的通道，具体解释在原论文的Table 2 中。由于斗地主出牌先后顺序是有关联的，所以我感觉该论文的设计思想是用 6 rounds提取牌局的信息进行训练。每个round有3层的15*19的信息分别保存三家牌局信息。

Cards:4456777889JKKAA2B;335567899TTJJKAA2;4456689TTJQQQK22S;33Q
Game process:0,33; 1,55; 2,66; 0,77; 1,AA; 1,6; 2,T; 0,J; 1,K; 0,2; 2,S; 2,44; 0,KK; 2,22; 2,89TJQK;
2,QQ; 0,AA; 0,56789; 1,789TJ; 1,3; 2,5

以上是论文举例说明的一组数据，分别表示三家牌和每家牌出牌的序列。论文Table 1表示的是将以上数据分成状态行为对<s,a>的例子。

Table 1 中的每一个Sample Index 对应的就是一个状态行为对，每一个状态行为对，对应的是每个15*19*21的维度的input数据，用来训练出结果和ACTION（Label）进行比较，然后反向迭代优化CNN的参数。下图是我写这边blog的重点：

彩虹-

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
ASolutionToChinaCompetitivePokerUsingDeepLearning读后感

这篇论文引用了腾讯的斗地主的数据，用CNN实现了斗地主自动出牌AI，这里只是将自己的理解做一个笔记，以防以后忘记。上面是该论文的训练网络。输入数据使用的15*19*21的网络结构，下面介绍一下该结构主要的设计思路。15表示斗地主的每张牌，A到K加大小王。19的含义是分两层，前4代表每张牌的张数，分别表示1,2,3,4；后面15层代表牌型结构，具体牌型结构在原论文的Table 3表示。那15...
复制链接

扫一扫

专栏目录