Stable-Baselines3 Contrib 项目教程-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00815/article/details/142081319

Stable-Baselines3 Contrib 项目教程

stable-baselines3-contribContrib package for Stable-Baselines3 - Experimental reinforcement learning (RL) code项目地址:https://gitcode.com/gh_mirrors/st/stable-baselines3-contrib

1. 项目介绍

Stable-Baselines3 Contrib（简称 SB3-Contrib）是 Stable-Baselines3 的一个扩展包，旨在提供实验性的强化学习（RL）算法和工具。SB3-Contrib 的目标是保持与 Stable-Baselines3 相同的简洁性、文档风格，同时为不太成熟的实现提供一个实验场所。

SB3-Contrib 包含了一些最新的 RL 算法实现，以及一些扩展的工具和环境包装器。这些工具和算法可能过于小众或难以集成到 Stable-Baselines3 的主代码库中，因此被放置在这个独立的扩展包中。

2. 项目快速启动

安装

首先，确保你已经安装了 Stable-Baselines3。然后，你可以通过以下命令安装 SB3-Contrib：

pip install sb3-contrib

示例代码

以下是一个简单的示例代码，展示了如何使用 SB3-Contrib 中的 Maskable PPO 算法：

import gym
from sb3_contrib import MaskablePPO
from sb3_contrib.common.wrappers import ActionMasker
from sb3_contrib.common.maskable.utils import get_action_masks

# 创建环境
env = gym.make('CartPole-v1')

# 使用 ActionMasker 包装环境
env = ActionMasker(env, get_action_masks)

# 创建 Maskable PPO 模型
model = MaskablePPO('MlpPolicy', env, verbose=1)

# 训练模型
model.learn(total_timesteps=10000)

# 测试模型
obs = env.reset()
for _ in range(1000):
    action_masks = get_action_masks(env)
    action, _states = model.predict(obs, action_masks=action_masks)
    obs, rewards, dones, info = env.step(action)
    env.render()