
麻将AI
文章平均质量分 87
强化学习曾小健
"强化学习曾小健2、强化学习曾小健3、我是机器人曾小健具身"都是该号副号。CSDN全站80强博客、总近480w+浏览。AI生成式技术,计算机博士;llama3、Baichuan2、Qwen、GLM-4等等项目贡献人(ArtificialZeng)。这个博客的主题主要是强化学习技术、AI生成式技术、大模型多模态技术、机器人具身智能控制技术、机器/深度学习论文或科研前沿、GNN图神经网络、神经网络,包括人工神经网络和生物神经网络,及其大脑演化,智能和认知的产生,通用人工智能;
展开
-
中国选手鲁云龙夺得福尔摩斯麻将解谜大赛冠军
从他们的演讲中,我们总结了三种类型的算法:将人类知识融入 AI 的启发式方法、从游戏数据集中训练神经网络模型的监督学习,以及无需人类知识即可从头开始学习的强化学习。我在这个主题上发表了两篇论文,一篇 [1] 介绍了 MCR 作为 AI 研究的新测试平台和基准,另一篇 [2] 总结了以前的麻将 AI 比赛的结果。在我学会了 MCR 的基本规则后,我在平台上与比赛中最好的人工智能代理玩了数千手,并通过模仿它的行为逐渐改进了我的策略。今年的比赛给了我这样的机会,事实证明我真的可以自己解决不同难度级别的谜题。原创 2025-02-18 03:38:09 · 483 阅读 · 0 评论 -
博弈论在截至到最新2025年的发展是什么? 我怎么感觉并没有太大进步,比方说理论上强烈依赖博弈的棋牌如麻将、扑克、德州扑克等等,都被强化学习相关AI技术取代,博弈论已经过时了吗?
嗯,用户的问题是问博弈论在2025年的发展情况,并且觉得博弈论可能过时了,因为像麻将、扑克这些博弈类游戏已经被强化学习的AI技术取代。我需要结合搜索结果来分析,看看博弈论的最新发展,以及它是否真的过时了。首先,我得看一下用户提供的搜索结果。网页1提到博弈论在深度强化学习(DRL)中的新趋势,比如平均场博弈、随机博弈和进化博弈。这些新方法正在影响DRL的发展,特别是多智能体环境中的应用。比如平均场博弈处理大量智能体的互动,随机博弈用于解决多玩家协作和竞争问题,而进化博弈则关注策略的动态演化。原创 2025-02-15 04:35:28 · 787 阅读 · 0 评论 -
经典棋牌 麻将 及第
麻将为四人牌类游戏。麻将使用136张麻将牌,其中包括36种不同的花色,每种花色有4张牌。玩家的目标是凑出胡牌牌型每位玩家可以吃,碰,杠以及在出牌回合打出不需要的牌。原创 2025-02-19 03:39:39 · 351 阅读 · 0 评论 -
世界麻将组织-维基百科
一些麻将玩家在 20 世纪 80 年代发起了一场改变麻将形象的运动,他们修改了规则,并于 1988 年成立了日本健康麻将协会。游戏,禁止以此为基础开展业务,因此没有人可以建立专业的麻将组织。加强沟通与交流,弘扬奥林匹克精神,倡导健康、科学、友好的麻将文化,完善国际麻将竞赛规则。2010-06-26检索。. Mindmahjong.com . 2010-06-26检索。. Mindmahjong.com . 2011-03-24检索。. Sloperama.com . 2010-06-26检索。原创 2025-02-11 11:56:16 · 706 阅读 · 0 评论 -
[国标麻将规则]详细解释国标麻将的基本规则和胡牌条件;的8番起胡,番是什么意思,是倍数吗,具体怎么计分的
国标麻将的核心规则强调。原创 2025-02-18 15:21:57 · 2162 阅读 · 0 评论 -
【本地国标麻将环境源码】botzone-local/botzone/envs/botzone/chinesestandardmahjong.py
python运行复制定义一个继承自Env的类,用于实现国标麻将的游戏环境。python运行复制元数据:定义了渲染模式,['ansi']表示支持终端文本渲染。python运行复制定义step方法,表示游戏中的一个步骤或回合(例如摸牌、出牌、吃碰杠等操作)。原创 2025-02-18 15:08:07 · 884 阅读 · 0 评论 -
gpt4o解读The Report of Team ALONG for IJCAI 2020 Mahjong AI Competition
论文的关键创新点包括深度网络设计、特征工程、奖励机制优化以及结合模仿学习与强化学习的策略。其中,模仿学习为强化学习提供了强大的初始模型,强化学习则进一步提升了性能。在实验中,Batch Size 为2048 时模型表现最佳,同时全数据集训练的模型具有更高的准确率和稳定性。原创 2025-01-03 10:41:00 · 663 阅读 · 0 评论 -
麻将的Deepseek评测-1
已深度思考(用时 214 秒)嗯,我现在要解决这个麻将的问题。用户手头的牌是万子牌和条子牌,需要决定打哪张牌更合适。首先,我得理清楚当前的手牌结构,然后分析可能的听牌方向和打出的牌对整体牌型的影响。首先,用户给出的万子部分是5万、6万、6万、7万、7万、7万。条子部分是1条、2条、3条、5条、6条、7条、9条、9条。总共有6张万子,8张条子,合计14张牌,看起来可能已经有一组牌被拆开了,因为正常手牌是13张,可能用户已经摸了一张牌需要打出一张。所以现在需要打出一张牌,让剩下的13张牌形成更好的听牌结构。首先原创 2025-02-04 01:09:30 · 744 阅读 · 0 评论 -
99谈国标】99的国标麻将小技巧
能把以上几点都做到的朋友,恭喜你,已经可以不用看任何的学习资料,只需要继续打牌自己复盘就行了。众所周知,国标麻将纯进攻的收益比纯防守大得多,所以牌效在国标麻将中也是很重要的,有些从立直麻将转过来入坑的朋友养成了留安牌的习惯,在入门之前,我不推荐预留安全牌,进攻的牌效都搞不明白就想着防守,本末倒置了。有些人只愿意防守明牌三元,实战中的大牌并没有想象中的多,在实际的对局中,哪怕是明牌一色三节高,明牌清龙,也不愿意轻易去点炮,除非自己听牌确实很好,和牌的枚数还很多,并且和率可观,才有对攻的资本。原创 2025-01-17 15:00:40 · 389 阅读 · 0 评论 -
麻将Deepseek评测 - 3题
丢张最少进张最多25万,任意一张都可以听牌(2334+5667条)叫双翼牌型两亩副成牌缺将时万子牌:3万、4万筒子牌:3筒、4筒、5筒、6筒条子牌:1条、3条、3条、4条、5条、6条、6条、7条应该出什么牌好的,我现在需要解决用户提出的麻将问题。用户给出了当前手牌,询问应该出哪一张牌。让我先仔细看看手牌的构成。首先,用户的手牌分为万、筒、条三种花色。具体来说:万子:3万、4万;筒子:3筒、4筒、5筒、6筒;条子:1条、3条、3条、4条、5条、6条、6条、7条。原创 2025-02-04 02:02:42 · 1355 阅读 · 0 评论 -
麻将算法 mahjong-algorithm 关于麻将的各种算法fan-calculator-usage/ChineseOfficialMahjongHelper/Classes/mahjong-al
虽然是用C++编写的,但是代码不包含STL。它很容易在其他语言中使用。原创 2025-01-13 14:43:07 · 878 阅读 · 0 评论 -
IJCAI 2020 麻将AI赛:腾讯研究员拿下冠军,清华学子 3 天进前十
所用人力最少的队伍是清华大学的“点个大的”团队,一人参赛,开发三天,高手榜排名第十。为了克服非完美信息博弈的问题, 研究者在训练阶段利用不可见的一些隐藏信息来引导AI模型的训练方向 ,让它的学习路径更加清晰、更加接近完美信息意义下的最优路径,从而倒逼AI模型更加深入地理解可见信息,从中找到有效的决策依据。具体的算法设计如上图所示, 研究者采用了“Shanhu”特征,即考虑当前牌面和胡牌的差距,可以通过弃掉一些不需要的牌从而得到一些需要的牌,把现在的牌变成胜算较大的一副牌。图注:前16名队伍信息。原创 2025-01-17 14:50:30 · 821 阅读 · 0 评论 -
Chinese-Standard-Mahjong
麻将在中国有着三千多年的历史,而后传播至世界各地,主要流行于亚洲,具有相当广泛的群众基础。中国国家体育总局于1998年7月制定了一套麻将规则,被称为国标麻将。国标麻将具有较强的制约性、趣味性、竞技性、观赏性。国标麻将是四人非完全信息游戏。牌山含有8张花牌,饼筒条的数牌108张,东南西北风牌16张,中发白箭牌12张,总计144张。开局时每名玩家各持有13张牌,称作“手牌”。四名玩家分坐在正方形桌子四边,按逆时针方向依次为东南西北家,以东家为庄家,其余家为闲家;每一局,庄家按照逆时针方向流转。原创 2025-02-07 14:55:48 · 891 阅读 · 0 评论 -
本地AI botzone
第三个元素是一个整数,表示对局玩家数p(0表示对局是意外终止的);请注意该API仅允许本地AI与Botzone的现有AI进行对局,而且除了不需要验证码,也有着如创建游戏桌一样的相关限制。当程序准备好response之后,你的程序应当将response放在GET请求的Header里,形如。该接口可能不会立即返回,而是直到有新的request或者超时的时候才会返回。为了方便程序主动创建对局,我们同时还提供了创建对局的API,地址是形如。接下来是2*m行,每两行为一组,第一行是对局ID,第二行是。原创 2025-02-07 14:53:26 · 1166 阅读 · 0 评论 -
论文-牌型预测与蒙特卡洛模拟结合的麻将博弈策略
这篇论文研究了如何通过结合局面信息利用方法和蒙特卡洛模拟来提高麻将博弈策略的效率。原创 2025-01-09 02:02:43 · 830 阅读 · 0 评论 -
前瞻信息生成]基于改进的 PPO 算法的非完备信息机器博弈的研究与应用
在论文中,前瞻信息的生成过程是通过博弈树搜索算法实现的。:从当前局面开始,使用博弈树搜索算法向下搜索最多三层。搜索树的根节点表示当前局面,每个节点代表一个可能的决策点边表示可能的行动。出牌探索节点模拟随机事件(如摸牌摸到有效牌节点:为了保证搜索树在规定时间内给出结果,搜索深度被限制在三层。超过三层时,节点的值用估值函数计算。:用于评估节点的价值。剩余牌总数。最小张数(向听数)有效牌的平均个数:将搜索树得到的信息进行特征编码,包括局部最优弃牌动作、选择的牌型和最大番型等信息。原创 2025-01-09 01:29:55 · 817 阅读 · 0 评论 -
棋盘游戏:井字棋-状态空间的数学推导和计算过程
状态空间是指游戏中可能的所有状态(棋盘局面)的集合。每个状态可以看作整个棋盘在某一时刻的排列情况。理论上限状态空间上界为。实际合法状态经过规则裁剪后,合法状态数为5,478。唯一状态去掉对称性后,唯一的棋盘状态为765。因此,井字棋的状态空间复杂度可以近似表示为10^4,因为。第一步有 n1n_1n1 种选择,第二步有 n2n_2n2 种选择,第三步有 n3n_3n3 种选择,……那么,所有步骤完成后,一共有种可能的组合。通过乘法原理每个格子有 3 种状态,原创 2025-01-10 11:21:03 · 787 阅读 · 0 评论 -
北大-中国国标麻将Chinese-Standard-Mahjong 环境
ChineseOfficialMahjongHelper文件夹为国标麻将算番器。此算番器接口调用开源项目:C++请参阅Mahjong-GB-CPPPython请参阅注:Botzone内置算番库,直接from MahjongGB import或者#include "MahjongGB/MahjongGB.h"就可以使用算番器。或者如果你希望直接使用。原创 2025-01-10 11:59:31 · 498 阅读 · 0 评论 -
哪类游戏AI难度更高?用数学方法来分析一下
第二轮,每个玩家剩余12张牌,玩家只能看到自己的12张手牌以及第一轮出的四张牌,因此第二轮信息集数目为C_52^13 C_13^1 C_39^1 C_38^1 C_37^1=C_52^13 A_13^1 A_39^3。以此类推,第三轮信息集数目为C_52^13 C_13^1 C_12^1 C_39^1 C_38^1 C_37^1 C_36^1 C_35^1 C_34^1=C_52^13 A_13^2 A_39^6 …以此类推,第18轮,每个信息集大小为C_55^13 C_42^13 C_29^13。原创 2025-01-10 11:09:52 · 1031 阅读 · 0 评论 -
南昌大论文]基于改进的PPO算法的非完备信息机器博弈的研究与应用_曾旺-王命延
这篇论文研究了基于改进的PPO算法的非完备信息机器博弈,特别是以四人竞技麻将为研究对象,旨在解决非完备信息博弈中的麻将出牌决策问题。原创 2025-01-07 23:43:23 · 672 阅读 · 0 评论 -
PPO算法 打油诗rap
Trust Region受限制,策略稳步准能行!Proximal Policy,优化之道,Proximal Policy,优化最火,Batch大小设对,别多也别太少,范围Clip调好,训练才叫高效!泛化能力提升,未来就更有样子!PPO algo,稳中求破,π新比π旧,算个Ratio,Entropy他的加权,鼓励。强化学习王者,实力绝不糊弄!目标函数,Obj设计奇妙,entropy奖励的加入,超参数调优,细节不能放松,动作离散连续,PPO全控,A值告诉你,差距有多大,多步采样,数据重复利用,原创 2025-01-05 01:30:20 · 241 阅读 · 0 评论 -
日本麻将和中国国标麻将最大的区别是什么
区别点日本麻将中国国标麻将和牌条件必须有役凑齐基本牌型即可计分机制符数+番数,复杂查表计分番数累加,固定公式计分听牌声明立直规则,需支付点数无立直规则副露规则副露限制多,影响役种副露自由,不影响计分宝牌机制有宝牌,增加翻数无宝牌机制节奏快速,局数少较慢,局数多日本麻将更注重策略性、进攻性和风险管理,而中国国标麻将更注重大番的积累和自由度。两者各有特色,适合不同的玩家群体。原创 2025-01-06 16:59:36 · 1147 阅读 · 0 评论 -
南昌大论文]基于深度蒙特卡洛方法的非完备信息博弈问题的研究与应用_杨豪杰 -2023
这篇文章的研究背景是机器博弈作为人工智能领域的重要研究方向之一,涉及智能体的规划、决策和学习等方面。通过开发机器博弈算法,可以使机器具备类似于人类的思维和决策能力,应用于自动驾驶、金融交易和安全防护等领域。原创 2025-01-07 23:37:45 · 1023 阅读 · 0 评论 -
按照概率学原理,你这牌一看就胡不了
第一种方案里,“准3连”B1B3还差一张B2(二条),但是整副牌中已经没有多余的二条,因此这种方案无效。方案二和方案三都是可行的,但是方案三的缺牌数更小,所以更优。这样的牌形叫“九门”(NineGate),李志光随后联想到,类似的“八门”、“七门”、“六门”……如果要选择一种声音代表新春佳节的团聚,除了噼里啪啦的鞭炮、杯盏相碰的清脆,一句“三缺一”和麻将桌上哗啦啦的搓麻声必定占有一席之地。当然,专业的科学家费劲编写程序来还原麻将的游戏规则,初衷倒不是为各位玩家搞一套打牌指南,而是为了。原创 2025-01-07 14:55:05 · 646 阅读 · 0 评论 -
【原创】日式麻将与中国麻将哪个比较难?——雀魂麻将MahjongSoul
进入听牌状态后,自己打过的牌中含有自己听的牌,那这之后只能自摸。原创 2025-01-06 16:52:05 · 1197 阅读 · 0 评论 -
日本麻将人工智能https://github.com/zhangjk95/MahjongAI
如果您想观看重播,您可以将文件卷映射到它,以便将重播保存在容器外。您可以在Windows或Linux上的Docker中运行该程序,除了Docker之外无需任何其他要求。(程序在Debug模式下可能会很慢,并且在做出决策时可能会超出时间限制。它能够在普通游戏中轻松击败其他玩家,在高级游戏中也表现出色。您可以使用本程序,但风险自负。比赛结束后,您可以在中找到重播URL。游戏结束后,您可以在中找到重播URL。如果你要在Majsoul上玩,请运行。一款日本麻将AI,可以在。原创 2025-01-07 23:15:17 · 1021 阅读 · 0 评论 -
麻将强化学习超参
增加每次训练的轮数,充分利用采样数据,提高训练效果。指定使用的GPU编号,当前设置合理,保持不变。PPO的裁剪参数,限制策略更新幅度,保持不变。学习率,当前值适合PPO训练,保持不变。GAE(广义优势估计)的平滑因子,适合。GPU数量,当前设置合理,保持不变。训练前的最小样本数量,提升训练质量。使用GPU进行加速,保持不变。长时序任务的奖励计算,保持不变。模型检查点的保存间隔,保持不变。模型更新及时性,避免数据滞后。,适合当前任务,保持不变。'cuda'(保持不变)模型保存路径,保持不变。原创 2025-01-07 16:34:17 · 306 阅读 · 0 评论 -
Arxiv论文Mathematical aspects of the combinatorial game “Mahjong”
我们展示了如何使用基本的组合理论和计算机编程技术(Python)来分析组合游戏:麻将。研究结果证实了一些关于这个游戏的风俗说法,并揭示了一些意想不到的结果。文中还提到了与人工智能相关的相关成果和可能的研究方向。对该主题感兴趣的读者可以进一步发展这些技术以深化对游戏的研究,或研究其他组合游戏。美国数学会分类号:05A15,05A05,60C05。关键词:组合理论,概率,九门。原创 2025-01-07 15:00:27 · 846 阅读 · 0 评论 -
[知乎问题]为什么强化学习里很少有预训练模型(Pretrained Model)?
作者初始化给智能体的指令是一段向下挖掘的视频,并实时检测智能体高度,当高度到达 12 时,将给智能体的指令切换为一段描述水平挖掘的视频。DEPS 基于大语言模型设计了一个包括“描述、解释、规划并选择”的流程,通过整合计划执行过程的描述并在规划阶段遇到失败时大语言模型提供的自我解释反馈,从而在初步 LLM 生成的计划失败时更好的修正错误并重新规划。如中间图所示,在一些不常见的任务(如「结构建造」和「工具使用」)上,相比之前的最优方法 STEVE-1,GROOT 获得了很高的对战胜率(>83%)。原创 2025-01-02 10:16:22 · 729 阅读 · 0 评论 -
superjong PPO(Proximal Policy Optimization) superjong
PPO 的核心思想是通过剪裁来限制策略更新的幅度,防止策略发生剧烈变化导致性能不稳定。未剪裁目标:鼓励对优势动作的强化。剪裁目标:限制更新幅度,确保学习的稳定性。通过这种设计,PPO 能够在性能和稳定性之间取得良好的平衡,是强化学习中常用的策略优化方法之一。原创 2025-01-02 10:39:46 · 1045 阅读 · 0 评论 -
[麻将AI 2nd PPO]The Report of Team ALONG for IJCAI 2020 Mahjong AI Competition
近年来,基于深度学习方法的AI在许多具有挑战性的任务上取得了人类水平的性能,如围棋、国际象棋以及更复杂的环境StatCraft。中国标准麻将一直是一款受欢迎的四人不完全信息游戏,但由于其复杂的玩法/计分规则和丰富的隐藏信息,对AI研究者而言极具挑战性。本研究采用两种新的学习技术——模仿学习(IL)和强化学习(RL)——来解决这一复杂问题。在模仿学习阶段,应用专家数据集训练一个ResNet结构模型。其次,我们通过大规模采样和训练来加强IL模型。实验表明,1)模仿模型表现出收集获胜条件的特性;原创 2025-01-02 11:05:19 · 895 阅读 · 0 评论 -
分析https://github.com/ailab-pku/SampleCode/tree/main/mahjong-rl 中的核心强化学习代码 麻将
分析https://github.com/ailab-pku/SampleCode/tree/main/mahjong-rl 中的核心强化学习代码。提供了模型的结构和计算逻辑。这些文件共同构成了一个强化学习系统,其中。Learner 需要时提供批量样本。类,使用卷积神经网络(CNN)获取最新的模型,并使用环境。计算优势(Advantage。麻将游戏的动作和请求处理。多进程机制实现并行化。原创 2025-01-02 14:05:13 · 242 阅读 · 0 评论 -
为什么强化学习里很少有预训练模型?
in Deep Reinforcement Learning》, 强化学习目前的主流趋势是策略决定样本,样本再更新策略,那么中间策略其实很容易影响最终策略的好坏。此外,我们也可以发现用了人类数据的Alphago怎么也比不上不用人类数据的Alphazero,那么这种情况下强化学习的预训练模型其实很难达到策略的天花板水平。,需要深厚的领域知识,数据获取的门槛高,需求也很窄。因此强化学习要出现广为人知的预训练模型,要找到具备广泛性且变化狭窄的任务,目前是很难找到的。量、大小、以及数据,已经形成了门槛,原创 2024-12-30 10:08:02 · 338 阅读 · 0 评论 -
actor critic的ppo 和在大模型中应用的ppo有什么区别
PPO(Proximal Policy Optimization)在强化学习中被广泛应用于。actor critic的ppo 和在大模型中应用的ppo有什么区别。,而在大模型(如 GPT 等语言模型)中,PPO 也被用来。环境交互(如 Atari 游戏、模拟环境。语言模型本身(如 GPT),负责生成文本。与生成模型结合的场景(如强化学习用于。如语言模型)的结合,特别是在。文本生成(如 GPT 的优化)在大模型(如 GPT)中,连续的(如机械臂的关节角度。离散的(如上下左右移动)控制任务(游戏、机器人。原创 2024-12-30 13:41:39 · 1107 阅读 · 0 评论 -
麻将提取网络CNN的设计
Poe以下是对这一 CNN 设计背后思路的一个可能性分析,结合了麻将环境的特点与强化学习中的常见做法。原创 2024-12-31 23:32:13 · 461 阅读 · 0 评论 -
北大麻将源码 /mahjong-rl/model_pool.py 用 FIFO 策略管理模型,利用共享内存实现跨进程通信和数据共享,适用于分布式或并行环境下的模型参数管理。
服务端 (:管理模型的存储和共享内存的分配。客户端 (:通过共享内存获取模型的元信息或加载模型参数。模型池采用FIFO策略管理模型,利用共享内存实现跨进程通信和数据共享,适用于分布式或并行环境下的模型参数管理。原创 2024-12-31 23:37:37 · 1099 阅读 · 0 评论 -
决策智能小组-新年感想
决策智能小组。原创 2025-01-01 15:46:44 · 881 阅读 · 0 评论 -
Suphx论文解读- 二 仔细阅读论文,详述前瞻特征是怎么生成的
前瞻特征通过深度优先搜索找到可能的赢牌组合,并忽略对手行为,只考虑当前代理的抽牌和丢牌行为。通过简化特征提取,生成了100多个前瞻特征,每个特征对应一个34维向量,用于指导模型的决策。这些特征帮助模型在复杂的麻将游戏中更好地预测未来的赢牌概率和得分。原创 2025-01-07 15:16:59 · 332 阅读 · 0 评论 -
Suphx 麻将AI论文解读
本文介绍了Suphx,这是一个基于深度强化学习的AI系统,用于玩四人日本麻将(立直麻将Suphx采用了全局奖励预测Oracle指导和运行时策略适应等新技术,展示了比大多数顶级人类玩家更强的表现。人工智能(AI)在许多领域取得了巨大成功,游戏AI自AI诞生之初就被广泛认为是其滩头阵地。近年来,游戏AI的研究逐渐从相对简单的环境(例如,完美信息游戏如围棋、国际象棋、将棋或双人不完美信息游戏如德州扑克)演变到更为复杂的环境(例如,多人不完美信息游戏如多玩家德州扑克和星际争霸II)。原创 2025-01-01 00:10:39 · 1822 阅读 · 0 评论 -
科学论文2019 德扑 Superhuman AI for multiplayer poker
本文介绍了Pluribus,一种能够在六人无限制德州扑克中击败顶级人类职业玩家的AI。原创 2024-12-30 15:04:00 · 619 阅读 · 0 评论