DeepMind重磅开源强化学习框架！覆盖28款游戏，24多个算法

QbitAl

于 2019-08-28 12:15:43 发布

阅读量2.2k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/QbitAI/article/details/100135768

版权

DeepMind开源了强化学习框架OpenSpiel，包括28款游戏环境和24个常用算法。这个框架提供了全面测试的算法如AlphaGo基础算法，并支持C++和Python API，适用于强化学习和机器学习研究。OpenSpiel设计简洁、轻量，便于安装、理解和扩展，适用于通用强化学习和游戏中的搜索/规划研究。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

乾明边策一璞发自凹非寺
量子位报道 | 公众号 QbitAI

没有DeepMind的命，烧不起DeepMind一样的研发投入，但你现在可以有DeepMind苦心多年研究出的算法和代码。

刚刚，这家背靠谷歌，烧了数十亿元的全球顶尖AI研究机构，开源了史上最全强化学习框架OpenSpiel。

在这个框架中，实现了28款可用于研究强化学习的棋牌类游戏和24个强化学习中常用的算法，DeepMind的成名作AlphaGo的基础算法也在其列。

此外，还包括用于分析学习动态和其他常见评估指标的工具。

更关键的是，OpenSpiel适用人群也非常广泛。

它的核心API和游戏用C++实现，并提供了Python API，可用于更高级别的机器学习，优化和强化学习。这些语言也可以很容易地组合在一起。

而且，代码的一个子集也已经使用Swift for Tensorflow直接移植到了Swift进行学习和推理，不需要跨语言操作。

开源消息放出后不久，就在Twitter上引起了数百转发和点赞。

史上最全强化学习框架

进一步说，OpenSpiel，是一个强化学习环境和算法的集合。在这个框架中，DeepMind对大部分环境和算法也都已经进行了全面测试。

目前，在OpenSpiel中实现的算法一共有24种，分别是：

极小化极大（Alpha-beta剪枝）搜索、蒙特卡洛树搜索、序列形式线性规划、虚拟遗憾最小化（CFR）、Exploitability

外部抽样蒙特卡洛CFR、结果抽样蒙特卡洛CFR、Q-learning、价值迭代、优势动作评论算法(Advantage Actor Critic，A2C)、Deep Q-networks (DQN)

短期价值调整（EVA）、Deep CFR、Exploitability 下降(ED) 、（扩展形式）虚拟博弈（XFP）、神经虚拟自博弈(NFSP)、Neural Replicator Dynamics（NeuRD）

遗憾策略梯度（RPG, RMPG）、策略空间回应oracle（PSRO）、基于Q的所有行动策略梯度（QPG）、回归CFR (RCFR)、PSROrN、α-Rank、复制/演化动力学。

其中，只有短期价值调整（EVA）、Deep CFR和PSROrN等算法只是进行了初步测试，其他算法都经过了全面的测试。

640?wx_fmt=png

Spiel意指桌面游戏。因此，OpenSpiel中的环境就是相关棋牌类游戏。一共有28款：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。