基于深度强化学习的掼蛋扑克博弈求解

最新推荐文章于 2025-05-01 22:59:55 发布

罗思付之技术屋

最新推荐文章于 2025-05-01 22:59:55 发布

阅读量1.1k

点赞数 20

分类专栏： VIP专栏文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fzq0625/article/details/139391309

版权

本文提出软深度蒙特卡洛（SDMC）方法，用于掼蛋扑克博弈求解，解决了复杂环境下的决策问题。SDMC在第二届‘中国人工智能博弈算法大赛’中夺冠，通过软启动和软动作采样策略，提高了训练效率和策略胜率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

在不确定信息的复杂环境下进行决策是现实中人们经常面对的困难之一，因此具有能够进行良好决策的能力被视为人工智能的重要能力之一. 而游戏类型的博弈作为对现实世界的一种高度抽象，具有良定义、易检验算法优劣等特点，成为研究的主流. 其中以掼蛋为代表的扑克类博弈不仅具有他人手牌未知这样的难点，还由于可选出牌动作与他人手牌情况数量庞大等特点，难以进行高效求解.

因此，本文提出了一种软深度蒙特卡洛（soft deep Monte Carlo，SDMC）求解方法. 该方法能够更好地融合领域知识，加快策略学习速度，并采用软动作采样策略调整实时决策，提升策略胜率. 所提出的SDMC方法训练出的策略模型参加第2届“中国人工智能博弈算法大赛”时获得冠军. 与第1届比赛冠军策略和第2届其他策略模型的实验对比证明了该方法在解决掼蛋扑克博弈中的有效性.

内容简介

1.首先介绍现有扑克类博弈的求解方法，并分析各个方法的优缺点；其次着重介绍在斗地主中的最新方法，从而更好地介绍本文提出的SDMC方法.

2.介绍SDMC方法，SDMC方法包含软启动与软动作采样2个过程，解决现有方法在以掼蛋为例的扑克博弈中的问题. 同时，为了更好地进行深度学习训练，本文亦创新性地提出了一种针对深度学习的掼蛋扑克博弈编码方法.

3.对本文提出的SDMC方法进行实验分析，使用掼蛋扑克环境，衡量SDMC方法中软启动的加速训练效果，并分别与第1届、第2届“中国人工智能博弈算法大赛”的参赛算法对比，证明SDMC方法的有效性.

亮点图文

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

罗思付之技术屋 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。