Stable Baselines/RL算法/Policy Networks

Stable Baselines官方文档中文版 Github CSDN
尝试翻译官方文档,水平有限,如有错误万望指正

Stable-baselines提供一系列默认策略(policies),可与大部分行动空间同用。你可以指定所用模型类的policy_kwargs参数来更改默认策略。然后这些kwargs参数会传给实例化的策略(参见案例: Custom Policy Network)如果你希望控制更多策略架构,你也可以创建一个自定义环境(具体参见:Custom Policy Network)。

CnnPolicies只用于图像。MplPolicies用于其他特征类型(例如:机器人关节)

警告:

对于所有算法(除了DDPGTD3SAC),训练和测试过程中会剪掉连续行动(避免边界溢出错误)

  • 可用策略

    可用策略 策略简介
    MlpPolicy Policy object that implements actor critic, using a MLP (2 layers of 64)
    MlpLstmPolicy Policy object that implements actor critic, using LSTMs with a MLP feature extraction
    MlpLnLstmPolicy Policy object that implements actor critic, using a layer normalized LSTMs with a MLP feature extraction
    CnnPolicy Policy object that implements actor critic, using a CNN (the nature CNN)
    CnnLstmPolicy Policy object that implements actor critic, using LSTMs with a CNN feature extraction
    CnnLnLstmPolicy Policy object that implements actor critic, using a layer normalized LSTMs with a CNN feature extraction
  • 基础类Base Classes

    stable_baselines.common.policies.BasePolicy(sess, ob_space, ac_space, n_env, n_steps, n_batch, reuse=False, scale=False, obs_phs=None, add_action_ph=False)
    

    基础策略对象(Policy Object

    参数 数据类型 意义
    sess TensorFlow session 当前TensorFlow会话
    ob_space Gym Space 环境的观测空间
    ac_space Gym Space 环境的行动空间
    n_env int 运行的环境数量
    n_steps int 每个环境运行的步数
    n_batch int 运行批次的数量(n_envs * n_steps)
    reuse bool 策略是否可重用
    scale bool 是否缩放输入
    obs_phs TensorFlow Tensor, TensorFlow Tensor 一个元组,分别包含观察占位符和已处理观察占位符的重写
    add_action_ph bool 是否创建行动占位符
    • action_ph

      tendorflow.Tensor: 行动的占位符,形状(self.n_batch)+ self.ac_space.shape

    • initial_state

      策略的初始状态,对于前馈策略,None。对于迭代策略,shape(self.n_env,)+state_shape的NumPy数组

    • is_discrete

      bool: 行动空间是否离散

  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值