Stable Baselines3 使用教程

最新推荐文章于 2025-03-29 14:26:02 发布

孙双曙Janet

最新推荐文章于 2025-03-29 14:26:02 发布

阅读量1.9k

点赞数 18

本文链接：https://blog.csdn.net/gitblog_00488/article/details/141045391

版权

Stable Baselines3 使用教程

项目地址:https://gitcode.com/gh_mirrors/st/stable-baselines3

项目介绍

Stable Baselines3 (SB3) 是一个基于 PyTorch 的强化学习算法库，提供了多种强化学习算法的实现。SB3 旨在提供一个可靠、易于使用和高效的强化学习工具包，适用于研究和开发人员。

项目快速启动

安装 Stable Baselines3

首先，确保你已经安装了 Python 3.8 或更高版本。然后，使用 pip 安装 Stable Baselines3：

pip install stable-baselines3[extra]

快速示例

以下是一个简单的示例，展示了如何使用 Stable Baselines3 训练一个 PPO 模型来解决 CartPole 问题：

import gym
from stable_baselines3 import PPO

# 创建环境
env = gym.make('CartPole-v1')

# 创建模型
model = PPO('MlpPolicy', env, verbose=1)

# 训练模型
model.learn(total_timesteps=10000)

# 测试模型
obs = env.reset()
for i in range(1000):
    action, _states = model.predict(obs, deterministic=True)
    obs, reward, done, info = env.step(action)
    env.render()
    if done:
        obs = env.reset()

env.close()