【笔记】stable_baseline 记录输出说明

夔曦

已于 2024-03-07 21:42:10 修改

阅读量1.9k

点赞数 7

分类专栏：经验分享 RL 文章标签：笔记人工智能算法

于 2024-01-22 21:11:58 首次发布

本文链接：https://blog.csdn.net/qq_46248455/article/details/135758307

版权

经验分享同时被 2 个专栏收录

25 篇文章

订阅专栏

5 篇文章

订阅专栏

本文详细记录了在使用ProximalPolicyOptimization(PPO)训练过程中，各项关键指标如平均回合长度、奖励、近似KL散度和熵损失等的输出示例，展示了训练的实时监控和性能评估情况。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

训练 PPO 代理时的记录器输出示例：

-----------------------------------------
| eval/                   |             |
|    mean_ep_length       | 200         |
|    mean_reward          | -157        |
| rollout/                |             |
|    ep_len_mean          | 200         |
|    ep_rew_mean          | -227        |
| time/                   |             |
|    fps                  | 972         |
|    iterations           | 19          |
|    time_elapsed         | 80          |
|    total_timesteps      | 77824       |
| train/                  |             |
|    approx_kl            | 0.037781604 |
|    clip_fraction        | 0.243       |
|    clip_range           | 0.2         |
|    entropy_loss         | -1.06       |
|    explained_variance   | 0.999       |
|    learning_rate        | 0.001       |
|    loss                 | 0.245       |
|    n_updates            | 180         |
|    policy_gradient_loss | -0.00398    |
|    std                  | 0.205       |
|    value_loss           | 0.226       |
-----------------------------------------

评估/eval

所有值均由 .eval/EvalCallback

mean_ep_length：平均每回合长度

mean_reward：平均每回合奖励（评估期间）

success_rate：评估期间的平均成功率（1.0 表示 100% 成功），环境信息字典必须包含用于计算该值的键is_success

推出/rollout

ep_len_mean：平均每回合长度（每回合的平均值，默认为 100）stats_window_size

ep_rew_mean：平均每回合训练奖励（每回合的平均值，默认为 100），需要包装器来计算该值（由 make_vec_env 自动添加）。stats_window_sizeMonitor

exploration_rate：使用 DQN 时探索率的当前值，它对应于随机采取的行动的分数（“epsilon-greedy”探索的 epsilon）

success_rate：训练期间的平均成功率（每回合的平均值，默认为 100），您必须向包装器传递一个额外的参数以记录该值（）并在每回合的最后一步提供stats_window_sizeMonitorinfo_keywords=(“is_success”,)info[“is_success”]=True/False

时间/time

episodes：总回合数

fps：每秒帧数（包括梯度更新所花费的时间）

iterations：迭代次数（数据收集 + A2C/PPO 策略更新）

time_elapsed：自训练开始以来的时间（以秒为单位）

total_timesteps：总时间步长数（环境中的步数）

训练/train

actor_loss：偏离策略算法的执行组件损失的当前值

approx_kl：新旧策略之间的近似平均KL差异（对于PPO），它是对更新中发生多少变化的估计

clip_fraction：PPO 被剪裁（高于阈值）的替代损失的平均分数。clip_range

clip_range：PPO替代损失的剪裁因子的当前值

critic_loss：偏离策略算法的批评函数损失的当前值，通常是值函数输出与 TD（0）之间的误差，时间差估计

ent_coef：熵系数的当前值（使用SAC时）

ent_coef_loss：熵系数损失的当前值（使用SAC时）

entropy_loss：熵损失的平均值（平均策略熵的负值）

explained_variance：由值函数解释的回报方差的分数，参见 https://scikit-learn.org/stable/modules/model_evaluation.html#explained-variance-score（ev=0 =>还不如预测零，ev=1 =>完美预测，ev<0 =>比预测零更差）

learning_rate：当前学习率值

loss：当前总损失值

n_updates：到目前为止应用的梯度更新数

policy_gradient_loss：策略梯度损失的当前值（其值没有多大意义）

value_loss：策略算法的值函数损失的当前值，通常为值函数输出与蒙特卡洛估计（或 TD（lambda）估计）之间的误差

std：使用广义状态相关探索（generalized State-Dependent Exploration，gSDE）时噪声的当前标准偏差

参考资料：https://stable-baselines3.readthedocs.io/en/master/common/logger.html