Stable-baselines提供一系列默认策略(policies),可与大部分行动空间同用。你可以指定所用模型类的policy_kwargs
参数来更改默认策略。然后这些kwargs
参数会传给实例化的策略(参见案例: Custom Policy Network)如果你希望控制更多策略架构,你也可以创建一个自定义环境(具体参见:Custom Policy Network)。
CnnPolicies
只用于图像。MplPolicies
用于其他特征类型(例如:机器人关节)
警告:
对于所有算法(除了
DDPG
,TD3
,SAC
),训练和测试过程中会剪掉连续行动(避免边界溢出错误)
-
可用策略
可用策略 策略简介 MlpPolicy
Policy object that implements actor critic, using a MLP (2 layers of 64) MlpLstmPolicy
Policy object that implements actor critic, using LSTMs with a MLP feature extraction MlpLnLstmPolicy
Policy object that implements actor critic, using a layer normalized LSTMs with a MLP feature extraction CnnPolicy
Policy object that implements actor critic, using a CNN (the nature CNN) CnnLstmPolicy
Policy object that implements actor critic, using LSTMs with a CNN feature extraction CnnLnLstmPolicy
Policy object that implements actor critic, using a layer normalized LSTMs with a CNN feature extraction -
基础类Base Classes
stable_baselines.common.policies.BasePolicy(sess, ob_space, ac_space, n_env, n_steps, n_batch, reuse=False, scale=False, obs_phs=None, add_action_ph=False)
基础策略对象(Policy Object)
参数 数据类型 意义 sess TensorFlow session 当前TensorFlow会话 ob_space Gym Space 环境的观测空间 ac_space Gym Space 环境的行动空间 n_env int 运行的环境数量 n_steps int 每个环境运行的步数 n_batch int 运行批次的数量(n_envs * n_steps) reuse bool 策略是否可重用 scale bool 是否缩放输入 obs_phs TensorFlow Tensor, TensorFlow Tensor 一个元组,分别包含观察占位符和已处理观察占位符的重写 add_action_ph bool 是否创建行动占位符 -
action_ph
tendorflow.Tensor: 行动的占位符,形状(self.n_batch)+ self.ac_space.shape
-
initial_state
策略的初始状态,对于前馈策略,None。对于迭代策略,shape(self.n_env,)+state_shape的NumPy数组
-
is_discrete
bool: 行动空间是否离散
-