谷歌开源RL并行计算框架！每秒处理240万帧游戏画面，AI训练成本降低80％

CVGao

于 2020-03-28 22:00:00 发布

阅读量525

点赞数

点击上方“Python高校”，关注

文末干货立马到手

量子位报道

对土豪来说最痛苦的是什么，就是有一大堆硬件却不能实现1+1=2的效果。

AI训练中的并行计算就是如此，纵使你有一千张GPU，也无法实现单机训练一千倍的效果。

最近，不差钱的谷歌，开源了一种SEED RL框架，可以更容易地将AI训练放在几千台机器上运行，效果比之前的方法最高提升近4倍。

如果你也不差钱，在云端上进行大规模并行计算，那么可以节约80%的训练成本。考虑到现在一个大型AI模型动辄上百万的训练费用，真的是非常可观了。

在训练AI玩足球游戏这件事情上，SEED RL的处理速度可以达到每秒240万帧。如果以60fps计算，相当于每秒可处理11小时的游戏画面。

SEED RL体系架构

上一代的分布式强化学习智能体IMPALA，其体系架构中包含Actor和Learner两部分。

Actor通常在CPU上运行，并且在环境中采取的步骤与对模型进行推断之间进行迭代，以预测下一个动作。

Actor经常会更新推理模型的参数，并且在收集到足够数量的观测结果后，会将观测结果和动作的轨迹发送给Learner，从而对Learner进行优化。

在这种架构中，Learner使用来自数百台机器上的分布式推理输入在GPU上训练模型。

但IMPALA存在着许多缺点：

1、使用CPU进行神经网络推理，效率低下。而且随着模型变大、运算量变大，问题会越来越严重。

2、Actor和Learner之间模型参数的带宽成为性能的瓶颈。

3、资源利用效率低，Actor在环境和推理两个任务之间交替进行，而这两个任务的计算要求不同，很难在同一台机器上充分利用资源。

SEED RL体系架构解决了以上这些缺点。Actor可以在GPU、TPU这类AI硬件加速器上完成推理，通过确保将模型参数和状态保持在本地来加快推理速度，并避免数据传输瓶颈。

与IMPALA体系结构相反，SEED RL中的Actor仅在环境中执行操作。Learner在硬件加速器上使用来自多个Actor的成批数据来集中执行推理。

SEED RL在每个环境步骤将观测结果发送给Learner的同时，使用gPRC框架的网络库，将延迟保持在较低水平。这使SEED RL在一台机器上每秒最多可以实现一百万个查询。

Learner可以扩展到几千个核心上，Actor的数量可以扩展到几千台机器，从而实现每秒百万帧的训练速度。

SEED RL用到了两种最先进的算法：V-trace和R2D2。

V-trace负责从采样的动作中预测动作的分布，R2D2负责根据动作的预测未来值选择一个动作。

V-trace是基于策略梯度的方法，最早被IMPALA采用。由于Actor和Learner是异步执行，而V-trace在异步体系架构中的效果很好

第二种算法是R2D2，这是一种Q学习方法，DeepMind曾用这种算法将强化学习智能体在Atari游戏上的水平提高了4倍，并在52款游戏上超过了人类水平。

这种方法允许Q学习算法大规模硬件上运行的同时仍然可以使用RNN。

实验结果

谷歌在DeepMind最近研究的开源足球游戏项目Google Research Football中进行了基准测试。

使用64个Cloud TPU核心实现了每秒240万帧的数据传输速度，与之前的最新分布式IMPALA相比，提高了80倍。

IMPALA要想达到相同的速度，需要14000个CPU，而SEED RL只用了4160个CPU。对于相同的速度，IMPALA需要的CPU是SEED RL的3~4倍。

通过对并行计算的硬件加速器进行优化，我们就可以放心大胆地提高模型的大小。

在上面的足球游戏任务中，通过增加模型大小和输入分辨率，可以解决从前未能解决的一些困难，让训练模型的效率大幅提高。

作者系网易新闻·网易号“各有态度”签约作者

传送门

资料以及Github地址已打包好

扫描下方二维码加我微信，备注：“ RL” 获取

????长按识别，添加微信

（添加人数较多，会自动通过）

推荐：

开源库

Python 开发者必知的 11 个 Python GUI 库

10款 Web开发最佳的 Python 框架

推荐 GitHub 上100天学习 Python的开源项目

Python绘图还在用Matplotlib？out了！发现一款手绘可视化神器！

我用 Python 爬了天猫内衣店的数据 Python爬完数据后，我终于买车不用坐引擎盖哭啦

1年工作经验，拿下今日头条 Python 开发面经分享！

Python 面试中 8 个必考问题

面试 4 个月，最终入职微软！

10 家公司 Python 面试题总结

面试了9家公司，拿到5份Offer

面试Python怕? 你想要的315道题都在这了

如何拿到半数面试公司Offer——我的Python求职之路

学习路线

基于TensorFlow 2.0的中文深度学习开源书来了！GitHub趋势日榜第一，斩获2K+星

微软官方上线了Python 教程，7个章节就把Python说通了

最全 14 张思维导图：教你构建 Python 编程的核心知识体系

Python 从入门到精通：一个月就够了！

24招加速你的Python，超级实用！

即学即用的 30 段 Python 非常实用的代码

工具

最靠谱的Pycharm 汉化安装+ 破解详细教程！

Python数据分析、挖掘常用工具

Python 最强 IDE 详细使用指南！

一款 Python 自动抢票神器，收藏起来回家不愁！

实践和数据分析

Python 开发植物大战僵尸游戏

用 Python 来找合适的妹子

一键分析你上网行为，看你是在认真工作还是摸鱼

Python给照片换底色，基于opencv模块

10个经典的小技巧：快速用 Python 进行数据分析

使用 Python 进行微信好友分析

爬虫

我给曾经暗恋的初中女同学，用Python实现了她飞机上刷抖音

为了能早点买房，我用 Python 预测房价走势！

被女朋友三番五次拉黑后，我用 Python 写了个“舔狗”必备神器

谁偷偷删了你的微信？别慌！Python 揪出来为了给女友挑合适的内衣，我用 Python 爬了天猫内衣店的数据 Python爬完数据后，我终于买车不用坐引擎盖哭啦

这里除了干货一无所有

人生苦短，我选在看

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。