【最新】如何降低深度强化学习研究的计算成本(Reducing the Computational Cost of DeepRL)...

深度强化学习实验室

官网:http://www.neurondance.com/

论坛http://deeprl.neurondance.com/

人们普遍认为,将传统强化学习与深度神经网络相结合的深度强化学习研究的巨大增长始于开创性的DQN算法的发表。这篇论文展示了这种组合的潜力,表明它可以产生可以非常有效地玩许多 Atari 2600 游戏的智能体。从那时起,已经有几种 方法建立在原始 DQN 的基础上并对其进行了改进。流行的Rainbow 算法结合了这些最新进展,在ALE 基准测试中实现了最先进的性能. 然而,这一进步带来了非常高的计算成本,不幸的副作用是扩大了拥有充足计算资源的人和没有计算资源的人之间的差距。

在“重温Rainbow:促进更具洞察力和包容性的深度强化学习研究”中,作者在一组中小型任务上重新审视了该算法。首先讨论与 Rainbow 算法相关的计算成本。作者探索了如何通过较小规模的实验得出关于结合各种算法组件的好处的相同结论,并将该想法进一步推广到在较小的计算预算上进行的研究如何提供有价值的科学见解。

Rainbow 的成本
计算成本高的一个主要原因是学术出版的标准通常需要在大型基准测试上评估新算法,例如ALE,其中包含 57 个 Atari 2600 游戏,强化学习智能体可能会学习玩这些游戏。对于典型的游戏,使用Tesla P100 GPU训练模型大约需要五天时间. 此外,如果想要建立有意义的置信界限,通常至少执行五次独立运行。因此,在全套 57 款游戏上训练 Rainbow 需要大约 34,200 个 GPU 小时(或 1425 天)才能提供令人信服的经验性能统计数据。换句话说,这样的实验只有在能够在多个 GPU 上并行训练时才可行,这对于较小的研究小组来说是望而却步的。

重温 Rainbow
与最初的 Rainbow 论文一样,作者评估了向原始 DQN 算法添加以下组件的效果:双 Q 学习、优先体验重放、决斗网络、多步学习、分布式 RL和噪声网络。并对一组四个经典控制环境进行评估,这些环境可以在 10-20 分钟内完成完全训练(而 ALE 游戏则需要 5 天):

左上:在CartPole 中,任务是平衡推车上的一根杆子,使代理可以左右移动。右上:在Acrobot 中,有两条手臂和两个关节,代理向两条手臂之间的关节施加力以将下臂抬高到阈值以上。左下:在LunarLander 中,代理旨在将飞船降落在两面旗帜之间。右下:在MountainCar 中,agent 必须在两座山丘之间建立动量才能开车到最右边的山顶。

研究了将每个组件独立添加到 DQN 以及从完整 Rainbow 算法中删除每个组件的效果。正如在最初的 Rainbow 论文中一样,作者发现,总的来说,这些算法中的每一个的添加确实改进了对基础 DQN 的学习。然而也发现了一些重要的差异,例如分布式强化学习——通常被认为是一个积极的加法——本身并不总是产生改进。实际上,与 Rainbow 论文中的 ALE 结果相反,在经典控制环境中,分布式 RL 仅在与另一个组件结合时才会产生改进。

每个图都显示了将各种组件添加到 DQN 时的训练进度。x 轴是训练步骤,y 轴是性能(越高越好)。

每个图都显示了从 Rainbow 中删除各种组件时的训练进度。x 轴是训练步骤,y 轴是性能(越高越好)。

作者还在MinAtar 环境中重新运行了 Rainbow 实验,该环境由一组五个小型化的 Atari 游戏组成,并发现了定性相似的结果。MinAtar 游戏的训练速度大约比评估原始 Rainbow 算法的常规 Atari 2600 游戏快 10 倍,但仍具有一些有趣的方面,例如游戏动态和基于像素的代理输入。因此,它们提供了一个具有挑战性的中级环境,介于经典控制和完整的 Atari 2600 游戏之间。

综合来看,发现的结果与原始 Rainbow 论文的结果一致——每个算法组件产生的影响可能因环境而异。如果建议使用一个单一的智能体来平衡不同算法组件的权衡,作者的 Rainbow 版本可能与原始版本一致,因为将所有组件组合在一起会产生更好的整体代理。然而,在不同算法组件的变化中有重要的细节值得更彻底的调查。

超越Rainbow
当 DQN 被引入时,它利用了Huber 损失和RMSProp 优化器。研究人员在构建 DQN 时使用这些相同的选择是很常见的做法,因为他们的大部分精力都花在了其他算法设计决策上。本着重新评估这些假设的精神,重新审视了DQN在低成本、小规模经典控制和 MinAtar 环境中使用的损失函数和优化器。作者使用Adam 优化器进行了一些初步实验,它是最近最流行的优化器选择,结合更简单的损失函数,均方误差损失(MSE)。由于在开发新算法时经常忽略优化器和损失函数的选择,作者观察到所有经典控制和 MinAtar 环境的显着改进。

因此,在完整的 ALE 套件(60 个 Atari 2600 游戏)上评估将两个优化器(RMSProp 和 Adam)与两个损失(Huber 和 MSE)相结合的不同方式。发现 Adam+MSE 是比 RMSProp+Huber 更好的组合。

衡量 Adam+MSE 对默认 DQN 设置(RMSProp + Huber)的改进;越高越好。

此外,当比较各种优化器-损失组合时,发现使用 RMSProp 时,Huber 损失往往比 MSE 表现更好(由实线和橙色虚线之间的差距说明)。

所有 60 款 Atari 2600 游戏的归一化分数汇总,比较不同的优化器-损失组合。

结论
在有限的计算预算下,作者能够在高层次上重现Rainbow 论文的发现,并发现新的有趣现象。显然,重新审视某事比首先发现它容易得多。然而开展这项工作的目的是论证中小型环境实证研究的相关性和重要性。这些计算密集度较低的环境非常适合对新算法的性能、行为和复杂性进行更关键和更彻底的分析。

作者绝不是呼吁减少对大规模基准的重视。只是敦促研究人员将小规模环境视为他们调查中的宝贵工具,并且审阅者避免忽视专注于小规模环境的实证工作。通过这样做,除了减少实验对环境的影响之外,我们还将更清楚地了解研究前景,并减少来自多样化且通常资源不足的社区的研究人员的障碍,这只会有助于使我们的社区和科学进步更加强大.

论文部分

链接:https://arxiv.org/pdf/2011.14826.pdf

本文链接:

https://ai.googleblog.com/2021/07/reducing-computational-cost-of-deep.html

论文:https://arxiv.org/pdf/2011.14826.pdf

总结1:周志华 || AI领域如何做研究-写高水平论文

总结2:全网首发最全深度强化学习资料(永更)

总结3:  《强化学习导论》代码/习题答案大全

总结4:30+个必知的《人工智能》会议清单

总结52019年-57篇深度强化学习文章汇总

总结6:   万字总结 || 强化学习之路

总结7:万字总结 || 多智能体强化学习(MARL)大总结

总结8:深度强化学习理论、模型及编码调参技巧

第112篇:基于Novelty-Pursuit的高效探索方法

第111篇:Reward is enough奖励机制。

第110篇:163篇ICML2021强化学习领域论文汇总

第109篇:【Easy-RL】200页强化学习总结笔记

第108篇:清华大学李升波老师《强化学习与控制》

第107篇:阿里巴巴2022届强化学习实习生招聘

第106篇:奖励机制不合理:内卷,如何解决?

第105篇:FinRL: 一个量化金融自动交易RL库

第104篇:RPG: 通过奖励发现多智能体多样性策略

第103篇:解决MAPPO(Multi-Agent PPO)技巧

第102篇:82篇AAAI2021强化学习论文接收列表

第101篇:OpenAI科学家提出全新强化学习算法

第100篇:Alchemy: 元强化学习(meta-RL)基准环境

第99篇:NeoRL:接近真实世界的离线强化学习基准

第98篇:全面总结(值函数与优势函数)的估计方法

第97篇:MuZero算法过程详细解读

第96篇:  值分布强化学习(Distributional RL)总结

第95篇:如何提高"强化学习算法模型"的泛化能力?

第94篇:多智能体强化学习《星际争霸II》研究

第93篇:MuZero在Atari基准上取得了新SOTA效果

第92篇:谷歌AI掌门人Jeff Dean获冯诺依曼奖

第91篇:详解用TD3算法通关BipedalWalker环境

第90篇:Top-K Off-Policy  RL论文复现

第89篇:腾讯开源分布式多智能TLeague框架

第88篇:分层强化学习(HRL)全面总结

第87篇:165篇CoRL2020 accept论文汇总

第86篇:287篇ICLR2021深度强化学习论文汇总

第85篇:279页总结"基于模型的强化学习方法"

第84篇:阿里强化学习领域研究助理/实习生招聘

第83篇:180篇NIPS2020顶会强化学习论文

第82篇:强化学习需要批归一化(Batch Norm)吗?

第81篇:《综述》多智能体强化学习算法理论研究

第80篇:强化学习《奖励函数设计》详细解读

第79篇: 诺亚方舟开源高性能强化学习库“刑天”

第78篇:强化学习如何tradeoff"探索"和"利用"?

第77篇:深度强化学习工程师/研究员面试指南

第76篇:DAI2020 自动驾驶挑战赛(强化学习)

第75篇:Distributional Soft Actor-Critic算法

第74篇:【中文公益公开课】RLChina2020

第73篇:Tensorflow2.0实现29种深度强化学习算法

第72篇:【万字长文】解决强化学习"稀疏奖励"

第71篇:【公开课】高级强化学习专题

第70篇:DeepMind发布"离线强化学习基准“

第69篇:深度强化学习【Seaborn】绘图方法

第68篇:【DeepMind】多智能体学习231页PPT

第67篇:126篇ICML2020会议"强化学习"论文汇总

第66篇:分布式强化学习框架Acme,并行性加强

第65篇:DQN系列(3): 优先级经验回放(PER)

第64篇:UC Berkeley开源RAD来改进强化学习算法

第63篇:华为诺亚方舟招聘 || 强化学习研究实习生

第62篇:ICLR2020- 106篇深度强化学习顶会论文

第61篇:David Sliver 亲自讲解AlphaGo、Zero

第60篇:滴滴主办强化学习挑战赛:KDD Cup-2020

第59篇:Agent57在所有经典Atari 游戏中吊打人类

第58篇:清华开源「天授」强化学习平台

第57篇:Google发布"强化学习"框架"SEED RL"

第56篇:RL教父Sutton实现强人工智能算法的难易

第55篇:内推 ||  阿里2020年强化学习实习生招聘

第54篇:顶会 || 65篇"IJCAI"深度强化学习论文

第53篇:TRPO/PPO提出者John Schulman谈科研

第52篇:《强化学习》可复现性和稳健性,如何解决?

第51篇:强化学习和最优控制的《十个关键点》

第50篇:微软全球深度强化学习开源项目开放申请

第49篇:DeepMind发布强化学习库 RLax

第48篇:AlphaStar过程详解笔记

第47篇:Exploration-Exploitation难题解决方法

第46篇:DQN系列(2): Double DQN 算法

第45篇:DQN系列(1): Double Q-learning

第44篇:科研界最全工具汇总

第43篇:起死回生|| 如何rebuttal顶会学术论文?

第42篇:深度强化学习入门到精通资料综述

第41篇:顶会征稿 ||  ICAPS2020: DeepRL

第40篇:实习生招聘 || 华为诺亚方舟实验室

第39篇:滴滴实习生|| 深度强化学习方向

第38篇:AAAI-2020 || 52篇深度强化学习论文

第37篇:Call For Papers# IJCNN2020-DeepRL

第36篇:复现"深度强化学习"论文的经验之谈

第35篇:α-Rank算法之DeepMind及Huawei改进

第34篇:从Paper到Coding, DRL挑战34类游戏

第33篇:DeepMind-102页深度强化学习PPT

第32篇:腾讯AI Lab强化学习招聘(正式/实习)

第31篇:强化学习,路在何方?

第30篇:强化学习的三种范例

第29篇:框架ES-MAML:进化策略的元学习方法

第28篇:138页“策略优化”PPT--Pieter Abbeel

第27篇:迁移学习在强化学习中的应用及最新进展

第26篇:深入理解Hindsight Experience Replay

第25篇:10项【深度强化学习】赛事汇总

第24篇:DRL实验中到底需要多少个随机种子?

第23篇:142页"ICML会议"强化学习笔记

第22篇:通过深度强化学习实现通用量子控制

第21篇:《深度强化学习》面试题汇总

第20篇:《深度强化学习》招聘汇总(13家企业)

第19篇:解决反馈稀疏问题之HER原理与代码实现

第18篇:"DeepRacer" —顶级深度强化学习挑战赛

第17篇:AI Paper | 几个实用工具推荐

第16篇:AI领域:如何做优秀研究并写高水平论文?

第15篇:DeepMind开源三大新框架!

第14篇:61篇NIPS2019DeepRL论文及部分解读

第13篇:OpenSpiel(28种DRL环境+24种DRL算法)

第12篇:模块化和快速原型设计Huskarl DRL框架

第11篇:DRL在Unity自行车环境中配置与实践

第10篇:解读72篇DeepMind深度强化学习论文

第9篇:《AutoML》:一份自动化调参的指导

第8篇:ReinforceJS库(动态展示DP、TD、DQN)

第7篇:10年NIPS顶会DRL论文(100多篇)汇总

第6篇:ICML2019-深度强化学习文章汇总

第5篇:深度强化学习在阿里巴巴的技术演进

第4篇:深度强化学习十大原则

第3篇:“超参数”自动化设置方法---DeepHyper

第2篇:深度强化学习的加速方法

第1篇:深入浅出解读"多巴胺(Dopamine)论文"、环境配置和实例分析

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值