- 博客(8)
- 收藏
- 关注
原创 《DD-PPO: LEARNING NEAR-PERFECT POINTGOAL NAVIGATORS FROM 2.5 BILLION FRAMES》-----强化学习论文笔记
abstract去中心化分布式PPO(DD-PPO) 是一种在资源密集型模拟环境中进行分布式强化学习的方法,在Hatitat-Sim上表现出近线性的扩展——通过串行在128个GPU上实现了107倍加速。codevideointroduction不同于gym和Atari, 3D simulator需要GPU加速,因此worker的数量通常有限制(252^525-282^828vs 2122^{12}212-2152^{15}215), 高维的输入和深度神经网络使parameter server紧.
2021-08-31 00:13:20 9106 1
原创 Exception: ROM is missing for xxxx, see https://github.com/openai/atari-py 强化学习安装Atari环境时ROMS丢失解决办法
配置强化学习常用的Atari环境时,出现以下错误:Exception: ROM is missing for xxxx, see https://github.com/openai/atari-py方法一按照错误提示,我们进入此网页https://github.com/openai/atari-py#roms, 可以按步骤下载并安装ROMS方法二Atari版本问题,直接卸载现有的Atari,安装0.2.5版本pip uninstall atari-pypip install atari-py=
2021-07-24 16:44:33 2726 4
原创 VSCode + MobaXterm Remote配置以及connect error:The process tried to write to a nonexistent pipe解决办法
VSCode + MobaXterm Remote配置我们在本地桌面上使用VSCode远程连接服务器上的文件夹,进行日常开发工作,需以下流程:VSCode 安装插件Remote Development;点击远程资源管理器,点击“+”号,打开config文件,Host为远程服务器名称(可自由定义),Host Name填写远程服务器的IP地址,User填写登录远程服务器的用户名;3. 把鼠标放在SSH TARGETS下出现的Host名称上,右键,选择在当前窗口或新窗口连接远程服务器,按照提示
2021-07-24 16:32:20 2015 3
原创 《IMPACT: Importance Weighted Asynchronous Architectures With Clipped Target Networks》-----强化学习论文笔记
abstract强化学习agent的实际使用往往受到训练时间的限制。为了加速训练,从业者往往转向分布式强化学习架构来并行化及加速训练过程。在当前可扩展的架构中,随着样本吞吐量的增加,样本的学习效率往往会下降。为解决这个问题,我们提出了IMPACT,从三个方面扩展了IMPALA:用于稳定代理目标的target network循环缓冲区有截断的重要性采样结果:在离散环境中,获得了更高的奖励,与IMPALA相比,训练时间减少30%,在连续环境中,比现有的可扩展代理训练更快,同时保持同步PPO的样
2021-07-20 16:41:11 197
原创 《RLlib: Abstractions for Distributed Reinforcement Learning》---强化学习论文笔记
abstractRLlib是开源项目Ray的一部分,RLlib官方文档,实现了自顶向下分层控制的强化学习算法,并达到了高性能、可扩展、大量代码重用的特性。introduction本文的主要工作如下:为强化学习训练提出了一个通用且模块化的分层编程模型;描述了RLlib这一高度可扩展化的强化学习算法库,以及如何在代码库中快速构建一系列强化学习算法;讨论了这一框架的性能,验证了RLlib在各种强化学习算法中和其他众多框架相比,达到或超过了最优性能;1.分层并行任务模型在基于任务的灵活编程模型基
2021-07-12 17:21:55 451
原创 《Proximal Policy Optimization Algorithms》--强化学习论文笔记
原文链接Markdown公式速写1. policy gradient 从on policy到 off policy学习和探索的agent是同一个的话,称作on policy学习和探索的agent不是同一个的话,称作off policy(agent通过观察别人玩,来学习)policy gradient: ∇\nabla∇ Rθ‾\overline {R_\theta}Rθ = Eτ∼pθ(τ)E_{\color{red}\tau \sim p_\theta(\tau)}Eτ∼pθ(τ)
2021-07-12 01:59:12 659
原创 《DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY》强化学习论文笔记
abstract本文提出了一种用于大规模深度强化学习的分布式架构,可以使agent能够从比以前数量级更多的数据上更有效地学习。该算法将行为与学习解耦,actor通过共享的神经网络与环境进行交互,产生的数据存储在经验回放记忆池中,learner再现经验样本并更新神经网络。该架构依赖于优先记忆重放,只关注actor生成的最重要的数据。Q1:what is shared neural network like?Q2: 分布式训练的方法和流程?Q3: 优先记忆重放解决了哪些问题?优先级排序的实现方法?如
2021-07-07 22:13:50 568 3
原创 fatal: unable to access ‘https://github.com/xxxx.git/‘: Failed to connect to github.com port 443: T
fatal: unable to access 'https://github.com/xxxx.git/': Failed to connect to github.com port 443: Timed out解决办法使用git clone xxxx.git 命令pull代码时,出现unable to access, port 443错误,把网址里的“https”改为git,重试
2021-07-06 18:09:55 1906
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人