【论文阅读】Deep Reinforcement Learning from Self-Play in Imperfect-Information Games

最新推荐文章于 2025-01-30 11:39:52 发布

博弈真的不简单啊

最新推荐文章于 2025-01-30 11:39:52 发布

阅读量4.8k

点赞数 7

分类专栏：机器博弈文章标签：非完美信息博弈强化学习自博弈

本文链接：https://blog.csdn.net/weixin_37837522/article/details/91907661

版权

本文介绍了一种端到端的学习方法，神经虚拟自我博弈（NFSP），用于解决大规模非完美信息博弈问题。NFSP结合深度强化学习（DRL）和虚拟自我博弈（FSP），在无先验知识的情况下学习近似纳什均衡。在冷扑和德州扑克等游戏中，NFSP表现出色，超越了普通强化学习方法和人类玩家。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【论文阅读】Deep Reinforcement Learning from Self-Play in Imperfect-Information Games

博弈论基础
Abstract
Introduction
Background
NFSP
总结

博弈论基础

Abstract

现实中很多实际问题都可以理解为是一个大规模非完美信息博弈（游戏）。为了解决这样的问题，之前的工作基本都集中在用手工设计的领域抽象（or 先验知识）去计算纳什均衡（i.e.非完美博弈的最优解）。在这篇文章里，我们第一个提出一种scalable的端到端的方法：在没有先验知识的情况下，直接学习近似的纳什均衡。我们的方法将虚拟自我博弈（Fictitious Self-Play， FSP）与深度强化学习（DRL）结合起来。当应用到冷扑（Leduc poker）时，神经虚拟自我博弈（Neural Fictitious Self-Play，NFSP）达到了纳什均衡，而普通的强化学习方法不行。在现实世界游戏德州扑克中，NFSP取得了最领先的成绩，超越了人类。