Practical RL项目:深度交叉熵方法实现详解
深度交叉熵方法概述
交叉熵方法(CEM)是一种基于优化的强化学习算法,它通过迭代地改进策略分布来解决控制问题。在Practical RL项目中,我们将传统的CEM方法扩展到神经网络领域,使用多层神经网络来解决连续状态空间的控制问题。
环境准备与初始化
首先我们需要设置实验环境,这里以CartPole-v0环境为例:
import gymnasium as gym
import numpy as np
import matplotlib.pyplot as plt
env = gym.make("CartPole-v0", render_mode="rgb_array").env
n_actions = env.action_space.n
state_dim = env.observation_space.shape[0]
CartPole环境的状态空间是连续的4维向量,包含小车位置、速度、杆角度和角速度;动作空间是离散的2个动作(向左/向右推)。
神经网络策略实现
我们使用Scikit-learn的MLPClassifier作为策略网络:
from sklearn.neural_network import MLPClassifier
agent = MLPClassifier(
hidden_layer_sizes=(20, 20), # 两层隐藏层,每层20个神经元
activation="tanh", # 使用tanh激活函数
)
MLPClassifier提供了两个关键方法:
partial_fit()
:执行单次训练,最大化给定状态下动作的概率predict_proba()
:预测所有动作的概率,输出形状为[len(states), n_actions]
会话生成函数
会话生成是CEM算法的核心部分,它使用当前策略在环境中运行一个完整的episode:
def generate_session(env, agent, t_max=1000):
states, actions = [], []
total_reward = 0
s, _ = env.reset()
for t in range(t_max):
probs = agent.predict_proba([s])[0] # 预测动作概率
a = np.random.choice(n_actions, p=probs) # 按概率采样动作
new_s, r, terminated, truncated, _ = env.step(a)
# 记录状态、动作和奖励
states.append(s)
actions.append(a)
total_reward += r
s = new_s
if terminated or truncated:
break
return states, actions, total_reward
精英选择机制
与表格型CEM类似,我们需要选择表现最好的会话进行训练:
def select_elites(states_batch, actions_batch, rewards_batch, percentile=50):
reward_threshold = np.percentile(rewards_batch, percentile)
elite_indices = np.where(rewards_batch >= reward_threshold)[0]
elite_states = np.concatenate([states_batch[i] for i in elite_indices])
elite_actions = np.concatenate([actions_batch[i] for i in elite_indices])
return elite_states, elite_actions
训练循环
完整的训练过程包括生成会话、选择精英样本和策略更新:
n_sessions = 100
percentile = 70
log = []
for i in range(100):
# 生成新会话
sessions = [generate_session(env, agent) for _ in range(n_sessions)]
states_batch, actions_batch, rewards_batch = map(np.array, zip(*sessions))
# 选择精英样本
elite_states, elite_actions = select_elites(states_batch, actions_batch, rewards_batch, percentile)
# 更新策略
agent.partial_fit(elite_states, elite_actions)
# 显示进度
show_progress(rewards_batch, log, percentile, reward_range=[0, np.max(rewards_batch)])
if np.mean(rewards_batch) > 190:
print("训练完成!")
break
性能优化技巧
-
超参数调优:
- 调整percentile值:较高的percentile会提高精英样本的质量但可能减慢收敛速度
- 增加n_sessions可以提供更多样化的样本但会增加计算成本
-
网络架构调整:
- 增加隐藏层大小或层数可以提高模型表达能力
- 尝试不同的激活函数(如ReLU)
-
训练加速:
- 使用并行化生成会话
- 复用前几轮的样本数据
扩展到更复杂环境
该方法可以扩展到MountainCar或LunarLander等更复杂环境,关键调整包括:
-
对于MountainCar:
- 增加t_max到10000以上
- 使用">"而非">="来筛选精英样本
- 可能需要更大的神经网络
-
对于LunarLander:
- 目标平均奖励设为+50
- 状态和动作空间更大,需要更强的网络表达能力
常见问题解决
-
训练停滞:
- 检查奖励分布,可能需要调整percentile
- 可视化策略行为寻找问题
-
环境限制:
- 某些gym版本有时间限制,使用.env属性移除限制
-
性能波动:
- 增加会话数量稳定训练
- 考虑添加正则化防止过拟合
通过这种方法,我们能够将传统的交叉熵方法扩展到连续状态空间问题,利用神经网络强大的函数逼近能力解决更复杂的强化学习任务。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考