论文阅读:大型对抗性不完美信息博弈的均衡发现 AAAI/ACM SIGAI Best Paper

59 篇文章 4 订阅
12 篇文章 1 订阅

论文最后附上下载地址。
注:论文属于公开的,欢迎下载。

1.介绍

Noam Brown 详述了大型对抗性不完美信息博弈中均衡计算的一系列进展。不完全信息博弈模型是指具有私有信息的多个主体之间的交互作用。在这种情况下,一个典型的目标是接近一个均衡,在这个均衡中,所有主体的策略都是最优的。本文描述了大型对抗不完全信息博弈均衡计算方面的若干进展。这些新技术使人工智能智能体首次有可能在全规模扑克游戏中击败顶级人类专业人员。几十年来,扑克一直是人工智能和博弈论领域的一大挑战。

在这里插入图片描述

在博士学位论文中,Noam Brown 详述了大型对抗性不完美信息博弈中均衡计算的一系列进展。这些新技术使得 AI 智能体首次有可能在无限注扑克游戏中击败顶级职业玩家,而这正是几十年来 AI 和博弈论领域一直存在的重大挑战性难题。
Noam Brown 致力于结合计算博弈论和机器学习来开发能够在不完美信息多智能体环境中进行策略推理的 AI 系统,其研究成果应用到了首个分别在在双人无限扑克和多人无限扑克中战胜人类顶级玩家的 Libratus 和 Pluribus。这两个游戏 AI 系统为 Noam Brown 带来了巨大的关注度。在这里插入图片描述

2.论文主要部分介绍

首先,放上章节目录,大家按需看就好。
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
论文摘要部分
在这里插入图片描述
不完全信息博弈模型的战略交互涉及多个有私人信息的代理人。此设置中的一个典型目标是近似所有代理人的策略都是最优的均衡。本论文描述了一个在大型对抗性不完美信息博弈中计算均衡的数量。这些新技术共同使之首次成为可能让人工智能代理在全面扑克中击败顶尖的人类专业人士,这需要几十年来一直是人工智能和博弈论领域的一个重大挑战问题。我们首先介绍基于反事实遗憾最小化 (CFR) 的更快的均衡发现算法,这是一种在两人零和游戏中收敛到纳什均衡的迭代算法框架。我们描述新使用贴现来显着加快收敛速度​​的 CFR 变体。这些贴现变体现在是最先进的均衡发现算法大型对抗性不完全信息博弈。我们还描述了理论上的合理性在大型游戏中可以将 CFR 提高几个数量级的修剪技术。此外,我们介绍了第一种用于热启动 CFR 的通用技术。
接下来,我们描述了通过自动抽象和函数逼近将 CFR 扩展到超大型游戏的新方法。特别是,我们介绍第一个可证明的局部最优算法,用于离散化连续动作空间不完全信息博弈。我们将其扩展为一种算法,该算法收敛到即使在具有连续动作空间的游戏中也是如此。我们还介绍了DeepCFR,一种使用神经网络函数逼近而不是基于分桶的抽象。 Deep CFR 是第一个非表格形式的 CFR扩展到大型游戏并使 CFR 能够部署在具有小域的设置中知识。我们还提出了用于不完全信息博弈的新搜索技术,以确保代理的搜索策略不会被对手利用。这些新搜索形式在理论上和实践上都优于过去的方法。我们描述如何在构建 Libratus 时使用这些搜索技术首次在两人无限注扑克中击败顶级人类。此外,我们介绍一种深度限制搜索的方法,该方法比以前的方法效率高几个数量级。我们描述了这种深度受限的搜索技术被纳入 Pluribus,首次在多人扑克中击败了顶级人类职业选手。最后,我们提出了一种结合深度在训练和测试时使用搜索进行强化学习,这朝着弥合完美信息博弈研究与研究之间的差距迈出了重要一步不完全信息博弈。

3.论文下载地址

论文地址:http://www.cs.cmu.edu/~noamb/thesis.pdf

Slides 地址:http://www.cs.cmu.edu/~noamb/thesis_slides.pdf

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值