【论文阅读】Deep Reinforcement Learning from Self-Play in Imperfect-Information Games

本文介绍了一种端到端的学习方法,神经虚拟自我博弈(NFSP),用于解决大规模非完美信息博弈问题。NFSP结合深度强化学习(DRL)和虚拟自我博弈(FSP),在无先验知识的情况下学习近似纳什均衡。在冷扑和德州扑克等游戏中,NFSP表现出色,超越了普通强化学习方法和人类玩家。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

【论文阅读】Deep Reinforcement Learning from Self-Play in Imperfect-Information Games

博弈论基础

Abstract

现实中很多实际问题都可以理解为是一个大规模非完美信息博弈(游戏)。为了解决这样的问题,之前的工作基本都集中在用手工设计的领域抽象(or 先验知识)去计算纳什均衡(i.e.非完美博弈的最优解)。在这篇文章里,我们第一个提出一种scalable的端到端的方法:在没有先验知识的情况下,直接学习近似的纳什均衡。我们的方法将虚拟自我博弈(Fictitious Self-Play, FSP)与深度强化学习(DRL)结合起来。当应用到冷扑(Leduc poker)时,神经虚拟自我博弈(Neural Fictitious Self-Play,NFSP)达到了纳什均衡,而普通的强化学习方法不行。在现实世界游戏德州扑克中,NFSP取得了最领先的成绩,超越了人类。

Introduction

很多机器学习算法在完美信息博弈中取得了近乎最优解,但这些方法却无法在非完美信息博弈中收敛。另一方面,很多博弈论中搜寻纳什均衡的方法缺乏学习抽象模式的能力,很难泛化到新的情景中。本文的motivation来自于端到端地学习有用的策略。

虚拟博弈(Fictitious play, FP)是在规范式博弈(单步博弈)中学习纳什均衡的常用方法。虚拟玩家们选择最优反应(都以最大化自身利益为原则而做出的动作)。FSP将单步博弈拓展到多步博弈(extensive-form game,扩展式博弈)。

N

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值