Stable Baselines官方文档中文版
PerpetualLearner
这个作者很懒,什么都没留下…
展开
-
Stable Baselines/用户向导/强化学习资源
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正Stable-Baselines假设你已经了解强化学习(Reinforcement Learning)基本概念。不过,如果你想继续学习RL,推荐下面几个资源:OpenAI Spinning UpDavid Silver’s courseLilian Weng’s bl...翻译 2019-07-29 09:54:25 · 1742 阅读 · 0 评论 -
Stable Baselines/RL算法/Policy Networks
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正Stable-baselines提供一系列默认策略(policies),可与大部分行动空间同用。你可以指定所用模型类的policy_kwargs参数来更改默认策略。然后这些kwargs参数会传给实例化的策略(参见案例: Custom Policy Network)如果你希望控制...翻译 2019-08-12 14:07:40 · 3438 阅读 · 0 评论 -
Stable Baselines/RL算法/ACER
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正Sample Efficient Actor-Critic with Experience Replay (ACER) 结合先前几个算法的思想:它使用多个workers(类似A2C),实现重播缓冲(如DQN),用重跟踪来计算Q值估计、重要性采样和信任区间。要点核心原始...翻译 2019-08-15 09:46:39 · 1386 阅读 · 0 评论 -
Stable Baselines/RL算法/RL基础类
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正所有强化学习(RL)算法的公共接口BaseRLModelclass stable_baselines.common.base_class.BaseRLModel(policy, env, verbose=0, *, requires_vec_env, policy_ba...翻译 2019-08-09 15:55:11 · 1282 阅读 · 0 评论 -
Stable Baselines/用户向导/预训练(行为克隆)
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正通过.pretrain()方法,你可以源自专家的轨迹预训练RL策略,因此加速训练。行为克隆(BC)处理模仿学习的问题,例如用专家示范,作为一个监督学习问题。这就是说,给出的专家轨迹(观测-行动对),训练策略网络以再生专家行为:对于一个给定观测,策略必采用专家采取的行动。专家...翻译 2019-08-07 11:40:58 · 2299 阅读 · 0 评论 -
Stable Baselines/用户向导/使用自定义环境
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正在自定义环境使用RL baselines,只需要遵循gym接口即可。也就是说,你的环境必须实现下述方法(并且继承自OpenAI Gym类):如果你用图像作为输入,输入值必须在[0,255]因为当用CNN策略时观测会被标准化(除以255让值落在[0,1])import ...翻译 2019-08-02 14:58:04 · 2272 阅读 · 1 评论 -
Stable Baselines/用户向导/处理NaNs和infs
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正在指定环境下训练模型的过程中,当遇到输入或者从RL模型中返回的NaN或inf时,RL模型有完全崩溃的可能。原因和方式问题出现后,NaNs和infs不会崩溃,而是简单的通过训练传递,直到所有的浮点数收敛到NaN或inf。这符合IEEE浮点运算标准(IEEE754),标准指...翻译 2019-08-08 19:17:04 · 1311 阅读 · 0 评论 -
Stable Baselines/用户向导/RL Baselines Zoo
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正RL Baselines Zoo. 是一系列用Stable Baselines预训练的强化学习agents。它也提供用于训练、评估agents、微调超参数、记录视频的基础脚本。这个版本库的目标:提供一个简单界面用于训练和享用Rl agents用基准测试不同强化学习算法...翻译 2019-08-06 11:07:27 · 1242 阅读 · 0 评论 -
Stable Baselines/用户向导/矢量化环境
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正矢量化环境是一种将多重独立环境堆叠成单一环境的方法。相比于每步在单一环境上训练RL智体,矢量化环境允许我们每步在n个环境上训练RL智体。因为这个原因,传递给环境的actions是一个n维环境,观察、奖励和事件约束信号也是一样的。类似Dict或Tuple这种非数组观测空间的cas...翻译 2019-08-01 13:31:58 · 4683 阅读 · 0 评论 -
Stable Baselines/用户向导/开始
Stable Baselines官方文档中文版 Github CSDN大多数强化学习算法包都试图采用sklearn风格语法。下面是一个简单的案例,展示如何在Cartpole环境中训练和运行PPO2.import gymfrom stable_baselines.common.policies import MlpPolicyfrom stable_baselines.commo...翻译 2019-07-27 15:29:02 · 2010 阅读 · 0 评论 -
Stable Baselines/用户向导/Tensorboard集成
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正初阶用法与RL baselines一起使用Tensorboard,你只需为RL智体简单定义一个log位置即可:import gymfrom stable_baselines import A2Cmodel = A2C('MlpPolicy', 'CartPole-v...翻译 2019-08-05 10:13:25 · 1662 阅读 · 0 评论 -
Stable Baselines-用户向导-安装
预备知识Baselines要求Python3(>=3.5),同时需要CMake,OpenMPI,zlib包。可以通过如下方式安装:Ubuntusudo apt-get update && sudo apt-get install cmake libopenmpi-dev python3-dev zlib1g-devMac OS X在Mac上安装系统包需...翻译 2019-07-26 17:05:38 · 7893 阅读 · 2 评论 -
Stable Baselines官方文档中文版
起这个名字有点膨胀了。网上没找到关于Stable Baselines使用方法的中文介绍,故翻译部分官方文档。非专业出身,如有错误,请指正。官方文档中文版汇总:Github:https://github.com/DBWangML/stable-baselines-zhStable Baselines是一组基于OpenAI Baselines的改进版强化学习(RL: Reinforcemen...翻译 2019-07-26 15:40:27 · 14725 阅读 · 3 评论 -
Stable Baselines/用户向导/示例
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正先用Colab Notebook在线试试吧下述所有示例都可用Google colab Notebooks执行:开始训练、保存、载入多重处理监视训练和及绘图Atari游戏强制退出(包括训练好的agent)事后经历回顾RL Baselines zoo...翻译 2019-07-31 09:59:13 · 5642 阅读 · 3 评论 -
Stable Baselines/用户向导/自定义策略网络
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正Stable baselines为图像(CNNPolicies)和其他类型的输入特征(MlpPolicies)提供了默认策略网络(见 Policies)。自定义策略网络结构的一种方法是创建模型的时候用policy_kwargs给模型传递参数:import gymimpor...翻译 2019-08-02 16:06:39 · 2721 阅读 · 1 评论 -
Stable Baselines/用户向导/RL算法
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正下面这个表格展示了stable baselines项目中采用的所有RL算法及其重要特征:迭代策略、离散/连续行动、多线程NameRefactored [1]RecurrentBoxDiscreteMulti ProcessingA2C✔️✔️...翻译 2019-07-29 10:55:41 · 1655 阅读 · 0 评论 -
Stable Baselines/RL算法/A2C
Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档,水平有限,如有错误万望指正Asynchronous Advantage Actor Critic (A3C)的同步、确定性变体。它使用多个workers来避免使用重播缓存。要点核心原始文献: https://arxiv.org/abs/1602.01783OpenAI 博客: https:/...翻译 2019-08-13 11:35:39 · 3131 阅读 · 0 评论