ksvtsipert-CSDN博客

原创《DD-PPO: LEARNING NEAR-PERFECT POINTGOAL NAVIGATORS FROM 2.5 BILLION FRAMES》-----强化学习论文笔记

abstract去中心化分布式PPO（DD-PPO) 是一种在资源密集型模拟环境中进行分布式强化学习的方法，在Hatitat-Sim上表现出近线性的扩展——通过串行在128个GPU上实现了107倍加速。codevideointroduction不同于gym和Atari, 3D simulator需要GPU加速，因此worker的数量通常有限制（252^525-282^828vs 2122^{12}212-2152^{15}215), 高维的输入和深度神经网络使parameter server紧.

2021-08-31 00:13:20 9106 1

原创 Exception: ROM is missing for xxxx, see https://github.com/openai/atari-py 强化学习安装Atari环境时ROMS丢失解决办法

配置强化学习常用的Atari环境时，出现以下错误：Exception: ROM is missing for xxxx, see https://github.com/openai/atari-py方法一按照错误提示，我们进入此网页https://github.com/openai/atari-py#roms，可以按步骤下载并安装ROMS方法二Atari版本问题，直接卸载现有的Atari，安装0.2.5版本pip uninstall atari-pypip install atari-py=

2021-07-24 16:44:33 2726 4

原创 VSCode + MobaXterm Remote配置以及connect error:The process tried to write to a nonexistent pipe解决办法

VSCode + MobaXterm Remote配置我们在本地桌面上使用VSCode远程连接服务器上的文件夹，进行日常开发工作，需以下流程：VSCode 安装插件Remote Development;点击远程资源管理器，点击“+”号，打开config文件，Host为远程服务器名称（可自由定义），Host Name填写远程服务器的IP地址，User填写登录远程服务器的用户名；3. 把鼠标放在SSH TARGETS下出现的Host名称上，右键，选择在当前窗口或新窗口连接远程服务器，按照提示

2021-07-24 16:32:20 2015 3

原创《IMPACT: Importance Weighted Asynchronous Architectures With Clipped Target Networks》-----强化学习论文笔记

abstract强化学习agent的实际使用往往受到训练时间的限制。为了加速训练，从业者往往转向分布式强化学习架构来并行化及加速训练过程。在当前可扩展的架构中，随着样本吞吐量的增加，样本的学习效率往往会下降。为解决这个问题，我们提出了IMPACT，从三个方面扩展了IMPALA：用于稳定代理目标的target network循环缓冲区有截断的重要性采样结果：在离散环境中，获得了更高的奖励，与IMPALA相比，训练时间减少30%，在连续环境中，比现有的可扩展代理训练更快，同时保持同步PPO的样

2021-07-20 16:41:11 197

原创《RLlib: Abstractions for Distributed Reinforcement Learning》---强化学习论文笔记

abstractRLlib是开源项目Ray的一部分，RLlib官方文档，实现了自顶向下分层控制的强化学习算法，并达到了高性能、可扩展、大量代码重用的特性。introduction本文的主要工作如下：为强化学习训练提出了一个通用且模块化的分层编程模型；描述了RLlib这一高度可扩展化的强化学习算法库，以及如何在代码库中快速构建一系列强化学习算法；讨论了这一框架的性能，验证了RLlib在各种强化学习算法中和其他众多框架相比，达到或超过了最优性能；1.分层并行任务模型在基于任务的灵活编程模型基

2021-07-12 17:21:55 451

原创《Proximal Policy Optimization Algorithms》--强化学习论文笔记

原文链接Markdown公式速写1. policy gradient 从on policy到 off policy学习和探索的agent是同一个的话，称作on policy学习和探索的agent不是同一个的话，称作off policy（agent通过观察别人玩，来学习）policy gradient： ∇\nabla∇ Rθ‾\overline {R_\theta}Rθ = Eτ∼pθ(τ)E_{\color{red}\tau \sim p_\theta(\tau)}Eτ∼pθ(τ)

2021-07-12 01:59:12 659

原创《DISTRIBUTED PRIORITIZED EXPERIENCE REPLAY》强化学习论文笔记

abstract本文提出了一种用于大规模深度强化学习的分布式架构，可以使agent能够从比以前数量级更多的数据上更有效地学习。该算法将行为与学习解耦，actor通过共享的神经网络与环境进行交互，产生的数据存储在经验回放记忆池中，learner再现经验样本并更新神经网络。该架构依赖于优先记忆重放，只关注actor生成的最重要的数据。Q1：what is shared neural network like?Q2: 分布式训练的方法和流程？Q3: 优先记忆重放解决了哪些问题？优先级排序的实现方法？如

2021-07-07 22:13:50 568 3

原创 fatal: unable to access ‘https://github.com/xxxx.git/‘: Failed to connect to github.com port 443: T

fatal: unable to access 'https://github.com/xxxx.git/': Failed to connect to github.com port 443: Timed out解决办法使用git clone xxxx.git 命令pull代码时，出现unable to access， port 443错误，把网址里的“https”改为git，重试

2021-07-06 18:09:55 1906

ksvtsipert的博客