Practical RL项目:深度交叉熵方法实现详解

Practical RL项目:深度交叉熵方法实现详解

Practical_RL A course in reinforcement learning in the wild Practical_RL 项目地址: https://gitcode.com/gh_mirrors/pr/Practical_RL

深度交叉熵方法概述

交叉熵方法(CEM)是一种基于优化的强化学习算法,它通过迭代地改进策略分布来解决控制问题。在Practical RL项目中,我们将传统的CEM方法扩展到神经网络领域,使用多层神经网络来解决连续状态空间的控制问题。

环境准备与初始化

首先我们需要设置实验环境,这里以CartPole-v0环境为例:

import gymnasium as gym
import numpy as np
import matplotlib.pyplot as plt

env = gym.make("CartPole-v0", render_mode="rgb_array").env
n_actions = env.action_space.n
state_dim = env.observation_space.shape[0]

CartPole环境的状态空间是连续的4维向量,包含小车位置、速度、杆角度和角速度;动作空间是离散的2个动作(向左/向右推)。

神经网络策略实现

我们使用Scikit-learn的MLPClassifier作为策略网络:

from sklearn.neural_network import MLPClassifier

agent = MLPClassifier(
    hidden_layer_sizes=(20, 20),  # 两层隐藏层,每层20个神经元
    activation="tanh",           # 使用tanh激活函数
)

MLPClassifier提供了两个关键方法:

  • partial_fit():执行单次训练,最大化给定状态下动作的概率
  • predict_proba():预测所有动作的概率,输出形状为[len(states), n_actions]

会话生成函数

会话生成是CEM算法的核心部分,它使用当前策略在环境中运行一个完整的episode:

def generate_session(env, agent, t_max=1000):
    states, actions = [], []
    total_reward = 0
    s, _ = env.reset()
    
    for t in range(t_max):
        probs = agent.predict_proba([s])[0]  # 预测动作概率
        a = np.random.choice(n_actions, p=probs)  # 按概率采样动作
        
        new_s, r, terminated, truncated, _ = env.step(a)
        
        # 记录状态、动作和奖励
        states.append(s)
        actions.append(a)
        total_reward += r
        
        s = new_s
        if terminated or truncated:
            break
    return states, actions, total_reward

精英选择机制

与表格型CEM类似,我们需要选择表现最好的会话进行训练:

def select_elites(states_batch, actions_batch, rewards_batch, percentile=50):
    reward_threshold = np.percentile(rewards_batch, percentile)
    elite_indices = np.where(rewards_batch >= reward_threshold)[0]
    
    elite_states = np.concatenate([states_batch[i] for i in elite_indices])
    elite_actions = np.concatenate([actions_batch[i] for i in elite_indices])
    
    return elite_states, elite_actions

训练循环

完整的训练过程包括生成会话、选择精英样本和策略更新:

n_sessions = 100
percentile = 70
log = []

for i in range(100):
    # 生成新会话
    sessions = [generate_session(env, agent) for _ in range(n_sessions)]
    states_batch, actions_batch, rewards_batch = map(np.array, zip(*sessions))
    
    # 选择精英样本
    elite_states, elite_actions = select_elites(states_batch, actions_batch, rewards_batch, percentile)
    
    # 更新策略
    agent.partial_fit(elite_states, elite_actions)
    
    # 显示进度
    show_progress(rewards_batch, log, percentile, reward_range=[0, np.max(rewards_batch)])
    
    if np.mean(rewards_batch) > 190:
        print("训练完成!")
        break

性能优化技巧

  1. 超参数调优

    • 调整percentile值:较高的percentile会提高精英样本的质量但可能减慢收敛速度
    • 增加n_sessions可以提供更多样化的样本但会增加计算成本
  2. 网络架构调整

    • 增加隐藏层大小或层数可以提高模型表达能力
    • 尝试不同的激活函数(如ReLU)
  3. 训练加速

    • 使用并行化生成会话
    • 复用前几轮的样本数据

扩展到更复杂环境

该方法可以扩展到MountainCar或LunarLander等更复杂环境,关键调整包括:

  1. 对于MountainCar:

    • 增加t_max到10000以上
    • 使用">"而非">="来筛选精英样本
    • 可能需要更大的神经网络
  2. 对于LunarLander:

    • 目标平均奖励设为+50
    • 状态和动作空间更大,需要更强的网络表达能力

常见问题解决

  1. 训练停滞

    • 检查奖励分布,可能需要调整percentile
    • 可视化策略行为寻找问题
  2. 环境限制

    • 某些gym版本有时间限制,使用.env属性移除限制
  3. 性能波动

    • 增加会话数量稳定训练
    • 考虑添加正则化防止过拟合

通过这种方法,我们能够将传统的交叉熵方法扩展到连续状态空间问题,利用神经网络强大的函数逼近能力解决更复杂的强化学习任务。

Practical_RL A course in reinforcement learning in the wild Practical_RL 项目地址: https://gitcode.com/gh_mirrors/pr/Practical_RL

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

韶婉珊Vivian

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值