【论文笔记】非完美信息多智能体博弈棋牌类AI论文五篇

zhengdao9906

已于 2022-07-11 15:10:25 修改

阅读量6.5k

点赞数 3

分类专栏：知识笔记论文笔记文章标签：机器学习深度学习 RL 强化学习人工智能

于 2022-03-25 10:24:06 首次发布

本文链接：https://blog.csdn.net/Xixo0628/article/details/123728040

版权

知识笔记同时被 2 个专栏收录

32 篇文章

订阅专栏

论文笔记

18 篇文章

订阅专栏

文章目录

引子

之前看到AlphaHoldem这篇论文让我心潮澎湃，于是去翻看了一下这篇论文的一些参考文献，选了几篇进行阅读，从读过的论文里选了几篇进行梳理。

所以论文内容可能会有点散，这里也只做简单的概要梳理，如果想了解细节请阅读原文。
在这里插入图片描述

OpenHoldem: A Benchmark for Large-Scale Imperfect-Information Game Research，arxiv2020

这篇论文和AlphaHoldem是来自同一个团队的。这篇论文中也已经加上了AlphaHoldem的部分工作。

在这里插入图片描述
首先是这篇论文提供了一个在线测试平台。可以让玩家/AI通过网络连接，一起进行测试。说实话德州扑克的测试平台确实很难找，而且因为各种原因其研究成果也很难开源，而且稍有不慎可能会有法律责任。这个平台目前好像已经打不开了。

在这里插入图片描述
其次是平台的功能介绍。测试平台自然是具备GUI、SDK、Socket、TCP/IP这些基础功能的。并且声称内置了多款NLTH（无限注德州扑克）AI进行强度测试。

为了增加测试的准确度、减小测试的方差，平台用了四种“测试协议”。
Duplicate Poker表示大家交换手牌打。AIVAT表示每手牌减去其平均的价值。这都是为了减少因为随机到不同手牌带来的方差。就像AA本身赢1BB不算什么，因为AA平均可能能赢10BB，27o弃牌输了盲注也不丢人，因为弃牌就是27o损失EV最小的决定。
LBR和DRL-BR都和BR（best response）有关。其目的是评估策略的“可被利用”程度。比如石头剪刀布游戏中，（1/3,1/3,1/3）的纳什均衡混合策略和一直出石头的策略对打，双方胜率持平，但是在best response层面上，纳什均衡混合策略的可利用性就为0。

SuphX: Mastering Mahjong with deep einforcement learning. 2020

日本麻将AI——苏菲。当初学习日本麻将的时候我还看大佬解读过苏菲的牌谱。隐隐约约记得，苏菲打牌有自己的风格。相比专家人类，苏菲更喜欢留安全牌、喜欢立直、喜欢做混一色之类的。（记不太清了，可能会有出入）

为了针对麻将复杂的规则，苏菲主要使用了三个技巧：

信息使用CNN识别游戏界面，行动流程较多使用手工设计约束。（解决流程问题）
鸣牌、胡牌使用不同模型。（独立判断是否鸣牌）
使用稀疏矩阵编码方式。（保留信息）
带熵正则化的分布式强化学习。（保证探索）

在这里插入图片描述
有作者亲自讲述苏菲设计过程的细节的视频，bilibili/youtube搜一下应该可以搜到。

创新点/特殊点：

单独使用GRU预测全局reward。结合点差、手牌、舍牌进行判断。
针对初始牌面对策略做出优化。好牌、码量落后就激进，差牌、码量领先就保守之类的优化。
Oracle Guiding。完全信息->可见信息，逐步进行训练。

RLCard: A Toolkit for Reinforcement Learning in Card Games

在这里插入图片描述
RLCard还是一个不错的平台，但是基于它的工作似乎不多。

简单罗列一些相关资源：
https://github.com/datamllab/rlcard
Official Website: https://www.rlcard.org
Paper: https://arxiv.org/abs/1910.04376
Related Project: DouZero Project
更具体的链接在其 Official Website 给出。

RLCard是一个国人编写的，基于pytorch的，包含11种卡牌游戏环境的AI，也包含一些比较粗糙的agent、测试demo，上手应该不是很困难。

值得一提的是，它的代码解耦做得很不错，因为维护比较少所以我还加QQ群提了几个issue，作者都很快就解决了。希望这个平台越来越好。