Stable Baselines/RL算法/Policy Networks

最新推荐文章于 2023-02-22 15:15:37 发布

PerpetualLearner

最新推荐文章于 2023-02-22 15:15:37 发布

阅读量3.3k

点赞数 2

分类专栏： # Stable Baselines官方文档中文版文章标签： stable baselines Policy Networks RL算法

Stable Baselines官方文档中文版 Github CSDN
尝试翻译官方文档，水平有限，如有错误万望指正

Stable-baselines提供一系列默认策略（policies），可与大部分行动空间同用。你可以指定所用模型类的policy_kwargs参数来更改默认策略。然后这些kwargs参数会传给实例化的策略（参见案例： Custom Policy Network）如果你希望控制更多策略架构，你也可以创建一个自定义环境（具体参见：Custom Policy Network）。

CnnPolicies只用于图像。MplPolicies用于其他特征类型（例如：机器人关节）

警告：

对于所有算法（除了DDPG，TD3，SAC），训练和测试过程中会剪掉连续行动（避免边界溢出错误）

可用策略

可用策略	策略简介
`MlpPolicy`	Policy object that implements actor critic, using a MLP (2 layers of 64)
`MlpLstmPolicy`	Policy object that implements actor critic, using LSTMs with a MLP feature extraction
`MlpLnLstmPolicy`	Policy object that implements actor critic, using a layer normalized LSTMs with a MLP feature extraction
`CnnPolicy`	Policy object that implements actor critic, using a CNN (the nature CNN)
`CnnLstmPolicy`	Policy object that implements actor critic, using LSTMs with a CNN feature extraction
`CnnLnLstmPolicy`	Policy object that implements actor critic, using a layer normalized LSTMs with a CNN feature extraction

基础类Base Classes

stable_baselines.common.policies.BasePolicy(sess, ob_space, ac_space, n_env, n_steps, n_batch, reuse=False, scale=False, obs_phs=None, add_action_ph=False)

基础策略对象（Policy Object）

参数	数据类型	意义
sess	TensorFlow session	当前TensorFlow会话
ob_space	Gym Space	环境的观测空间
ac_space	Gym Space	环境的行动空间
n_env	int	运行的环境数量
n_steps	int	每个环境运行的步数
n_batch	int	运行批次的数量（n_envs * n_steps）
reuse	bool	策略是否可重用
scale	bool	是否缩放输入
obs_phs	TensorFlow Tensor, TensorFlow Tensor	一个元组，分别包含观察占位符和已处理观察占位符的重写
add_action_ph	bool	是否创建行动占位符

action_ph

tendorflow.Tensor: 行动的占位符，形状（self.n_batch）+ self.ac_space.shape
initial_state

策略的初始状态，对于前馈策略，None。对于迭代策略，shape(self.n_env,)+state_shape的NumPy数组
is_discrete

bool: 行动空间是否离散

最低0.47元/天解锁文章

PerpetualLearner

关注

2
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
Stable Baselines/RL算法/Policy Networks

Stable Baselines官方文档中文版 Github CSDN尝试翻译官方文档，水平有限，如有错误万望指正Stable-baselines提供一系列默认策略（policies），可与大部分行动空间同用。你可以指定所用模型类的policy_kwargs参数来更改默认策略。然后这些kwargs参数会传给实例化的策略（参见案例： Custom Policy Network）如果你希望控制...
复制链接

扫一扫