生命游戏 并行化_DeepMind最新力作:分布式强化学习框架Acme,智能体并行性加强...

DeepMind推出了分布式强化学习框架Acme,旨在简化强化学习算法开发,增强智能体的并行性。Acme允许智能体在不同规模的环境中运行,支持从单进程到分布式系统的无缝扩展,促进强化学习算法的复现和推广。该框架使用Reverb数据存储系统,并提供了多种智能体的单进程和分布式实例。
摘要由CSDN通过智能技术生成

选自DeepMind博客

机器之心编译

参与:蛋酱、杜伟

近日,DeepMind 发布了一种新型分布式强化学习框架「Acme」,通过促使 AI 驱动的智能体在不同规模的环境中运行,该框架可以简化强化学习算法开发进程。此外,与先前方法相比,研究人员可以使用该框架创建并行性更强的智能体。

037a524e1729c75c9d9f60cff3346d78.png

近年来,在深度学习技术和算力提升的双重加持下,强化学习已经在众多复杂的 AI 挑战中取得了辉煌战绩。无论是象棋、围棋、麻将,还是王者荣耀以及各类雅达利经典游戏,强化学习的表现都足以令人叹服。

但深度强化学习在带来开创性进展的同时,也带来了一些「挑战」:这些进步常常以底层强化学习算法的规模及复杂性为代价,复杂性的增加反过来又使得已公开的强化学习算法或者 idea 变得难以复现。

为了解决强化学习算法由单进程原型到分布式系统扩展过程中智能体的重新部署问题,DeepMind 推出了一种新的分布式强化学习框架「Acme」。

目前,由研究者和工程人员共同完成的论文也已正式公布。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值