强化学习框架stable-baselines3简单案例

肥猪猪爸

于 2024-11-28 16:21:07 发布

阅读量1.3k

点赞数 6

分类专栏：人工智能文章标签：算法人工智能强化学习 SB3 python 深度学习

本文链接：https://blog.csdn.net/weixin_37522117/article/details/144091015

版权

人工智能专栏收录该内容

67 篇文章

订阅专栏

Stable-Baselines3 (SB3) 是一个基于 PyTorch 的库，提供了可靠的强化学习算法实现。它拥有简洁易用的接口，让用户能够直接使用现成的、最先进的无模型强化学习算法。
在这里插入图片描述

以下是一个基于强化学习和 Gym 中 mujoco 的 Ant 环境的案例，使用了 Proximal Policy Optimization (PPO) 算法，这是一个适用于连续状态和动作空间的强化学习算法。

环境准备

安装依赖

确保安装以下库：

pip install gym[mujoco] stable-baselines3 shimmy

gym[mujoco]: 提供 MuJoCo 环境支持。
stable-baselines3: 包含多种强化学习算法的库，包括 PPO。
shimmy: stable-baselines3需要用到shimmy。

完整代码

实现 PPO 与 Ant 环境交互

import gym
from stable_baselines3 import PPO
import imageio

# 创建 Ant 环境l
env = gym.make("Ant-v4")

# 使用 Stable-Baselines3 的 PPO 算法
model = PPO(
    "MlpPolicy",  # 多层感知机作为策略网络
    env,
    verbose=1,
    learning_rate=0.0003,
    n_steps=2048,
    batch_size=64,
    n_epochs=10,
    gamma=0.99,
    gae_lambda=0.95,
)

# 训练模型, total_timesteps自行调整
model.learn(total_timesteps=100000)

# 保存模型
model.save("ppo_ant")
# 加载模型
model = PPO.load("ppo_ant")
# 创建测试环境
env = gym.make("Ant-v4", render_mode="rgb_array")
# 存储每帧图像
frames = []
# 测试模型
obs, info = env.reset()
for _ in range(1000):
    env.render()
    frames.append(env.render())  # 捕获帧
    action, _ = model.predict(obs)
    next_state, reward, terminated, truncated, info = env.step(action)
    if terminated or truncated:
        obs, info = env.reset()

env.close()

# 保存为视频
imageio.mimsave("./ppo_ant_video.mp4", frames, fps=30)

代码解析

创建 Ant 环境
- 使用 gym.make("Ant-v4") 创建 Ant 环境。
使用 PPO 算法
- 策略网络：使用 MlpPolicy（多层感知机策略）。
- 超参数设置：
  - learning_rate：学习率，控制更新步长。
  - n_steps：每次更新前的时间步数。
  - batch_size：训练时的批量大小。
  - n_epochs：每次更新的训练轮数。
  - gamma：折扣因子，权衡短期与长期奖励。
  - gae_lambda：广义优势估计（GAE）的参数，用于稳定学习。
训练模型
- 使用 model.learn() 函数训练模型。
测试模型
- 使用 model.predict(obs) 获得动作决策。
- 在环境中运行训练好的策略，通过渲染观察蚂蚁机器人的运动行为。