【笔记】stable_baselines3包使用模板

强化学习之stable_baselines3包使用模板

import gym
from stable_baselines3 import PPO
# 创建环境
env = gym.make('yourenv')
# 实例化PPO算法
model = PPO('MlpPolicy', env, verbose=1)
# 训练模型
model.learn(total_timesteps=10000)
# 保存训练后的模型
model.save("ppo_urpih_dense")
# 加载模型
loaded_model = PPO.load("ppo_urpih_dense")
# 在环境中运行模型
obs = env.reset()
for i in range(1000):
    action, _ = loaded_model.predict(obs)
    obs, reward, done, info = env.step(action)
    env.render()
    if done:
        obs = env.reset()
# 关闭环境
env.close()

官方学习网址:https://stable-baselines3.readthedocs.io/en/master/guide/quickstart.html

  • 5
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在深度强化学习中,PPO(Proximal Policy Optimization)是一种常用的算法之一。在PPO中,为了减少方差,我们可以添加一个baseline来估计每个状态的价值。引用\[3\]中提到了计算轨迹发生概率的公式,我们可以在这个公式中添加一个baseline项来计算每个状态的价值。具体来说,我们可以将每个状态的概率乘以该状态的价值函数的估计值,然后再进行概率的乘积计算。这样可以帮助我们更准确地估计每个状态的优势值,从而提高训练的效果。 #### 引用[.reference_title] - *1* *3* [强化学习从基础到进阶-案例与实践[5]:梯度策略、添加基线(baseline)、优势函数、动作分配合适的分数...](https://blog.csdn.net/sinat_39620217/article/details/131384681)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* [强化学习--PPO(近端策略优化)](https://blog.csdn.net/qq_44430026/article/details/125947354)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值