ASolutionToChinaCompetitivePokerUsingDeepLearning读后感

这篇论文引用了腾讯的斗地主的数据,用CNN实现了斗地主自动出牌AI,这里只是将自己的理解做一个笔记,以防以后忘记。

上面是该论文的训练网络。输入数据使用的15*19*21的网络结构,下面介绍一下该结构主要的设计思路。15表示斗地主的每张牌,A到K加大小王。19的含义是分两层,前4代表每张牌的张数,分别表示1,2,3,4;后面15层代表牌型结构,具体牌型结构在原论文的Table 3表示。那15*19就可以表示一副牌局的所有信息。

重点是21这个数字,代表了21维的通道,具体解释在原论文的Table 2 中。由于斗地主出牌先后顺序是有关联的,所以我感觉该论文的设计思想是用 6 rounds提取牌局的信息进行训练。每个round有3层的15*19的信息分别保存三家牌局信息。

Cards:4456777889JKKAA2B;335567899TTJJKAA2;4456689TTJQQQK22S;33Q
Game process:0,33; 1,55; 2,66; 0,77; 1,AA; 1,6; 2,T; 0,J; 1,K; 0,2; 2,S; 2,44; 0,KK; 2,22; 2,89TJQK;
2,QQ; 0,AA; 0,56789; 1,789TJ; 1,3; 2,5

以上是论文举例说明的一组数据,分别表示三家牌和每家牌出牌的序列。论文Table 1表示的是将以上数据分成状态行为对<s,a>的例子。

Table 1 中的每一个Sample Index 对应的就是一个状态行为对,每一个状态行为对,对应的是每个15*19*21的维度的input数据,用来训练出结果和ACTION(Label)进行比较,然后反向迭代优化CNN的参数。下图是我写这边blog的重点:

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值