在强化学习训练过程中,往往会记录并可视化多种度量指标(训练曲线),用来评估算法的学习进展和网络的更新情况。下面结合典型的图表,详细解释最常见的几条训练曲线及其意义:
1. average_episode_rewards(平均回合奖励)
含义:
- 表示每个训练回合(Episode)的累计奖励,在一个窗口或一定数量的回合内取平均值后绘制。
- 随着训练进行,智能体逐步改善策略,期望看到该指标逐渐上升并在高值处收敛。
解读要点:
- 快速上升阶段:表明智能体的探索策略/参数更新有了显著改进,开始学会在环境中获取更高回报。
- 震荡波动:小幅波动是常见现象,表示环境的随机性或智能体探索带来的不确定。过大波动可能意味着学习率过高或策略不稳定。
- 后期平稳/收敛:若平均回合奖励稳定在较高水平,说明智能体已基本学到或逼近最优策略。
2. dist_entropy(策略熵)
含义:
- 在策略梯度方法中,策略熵(Policy Entropy)反映了策略的“随机程度”,即在动作分布中是否存在高不确定性。
- 值越大表示动作分布更分散,智能体更愿意探索;值越小说明策略更确定性,倾向于选择最优动作。
解读要点:
- 训练初期熵较高:策略较为随机,智能体还在探索阶段。
- 随时间降低:随着学习到更好策略,智能体倾向于最优动作,熵下降。
- 过早降至极低值:可能表明过度贪婪、缺乏探索,需要适当增加熵奖励或调节探索超参数。
3. policy_loss(策略损失)
含义:
- 在基于策略梯度(如 PPO / MAPPO)中,
policy_loss
通常是负的策略梯度目标,或者说是“使回报最大化”问题转化而来的损失值。 - 其数值大小与策略的更新幅度有关,通常越小说明策略改进到更优,但也要结合其他指标来判断。
解读要点:
- 负值为主:因为很多实现中会将“最大化回报”记为“最小化负回报”。
- 曲线下降:表示策略在持续被优化,能获取更高的回报。
- 波动:更新策略时必然存在噪声和随机性,一定范围内的上下波动通常是正常的。
4. value_loss(价值损失 / Critic损失)
含义:
- 在Actor-Critic方法中,会有一个Critic网络去估计状态价值 V(s) 或者动作价值 Q(s,a)。
value_loss
反映 Critic 估计与真实目标(基于回报+折扣+bootstrap等计算)的差异,损失越小,代表 Critic 估值越准确。
解读要点:
- 初期波动大:网络从随机权重开始,需要快速拟合价值函数,损失可能先升后降或剧烈震荡。
- 中后期趋于平稳或缓降:表示 Critic 对价值函数的估计日渐准确,误差逐步减少。
- 若后期仍很高:可能说明环境难以估值或网络结构/学习率不合适,Critic一直无法拟合到好的价值。
5. actor_grad_norm / critic_grad_norm(梯度范数)
含义:
- 梯度范数是计算网络参数更新时梯度向量的范数(通常是 L2 范数)。
- 数值越大表示网络更新幅度越大;越小表示网络更新趋于平稳或停滞。
解读要点:
- 训练初期梯度往往较大:因为随机初始化,网络对回报的反向传播误差可能显著。
- 随时间推移:若学习走向收敛,梯度往往会减少,说明模型接近局部最优或全局最优;或者智能体行为分布不再大范围调整。
- 梯度若一直飙升:可能遇到梯度爆炸,需要梯度裁剪、降低学习率或调整网络结构。
- 梯度若过早衰减为 0:可能出现网络学不动的问题(如 Critic过拟合或饱和),需要调参让其更灵活。
6. ratio(PPO中的重要性采样比率)
含义:
- 在 PPO 中,更新时会计算 πθ(a∣s)πθold(a∣s)\frac{\pi_\theta(a|s)}{\pi_{\theta_\text{old}}(a|s)} 以限制新旧策略分布的差异。
ratio
通常围绕 1 波动,若远离 1 说明改动过大,可能会违反 PPO 的剪切限制。
解读要点:
- 大多在[0.9,1.1]区间左右:表示新旧策略的差异适度,满足PPO的剪切约束,训练平稳。
- 若出现极端值:如 >2 或 <0.5,说明更新过度,可能破坏稳定性,需要减少学习率或缩短采样间隔等。
7. 其它指标
- episode_length:回合长度,若任务可以提早结束或被终止,通过观察它随时间的变化,可知策略是否更高效完成任务。
- success_rate:在有明确成功/失败判定的任务中,可统计成功次数。
- curvature / kl_divergence:若算法在意策略分布变化,也会监控新旧策略间 KL 散度等指标。
总体联系
这些指标往往要结合起来看:
- actor_grad_norm 与 critic_grad_norm 能提示是否网络在积极更新;
- policy_loss 和 value_loss 分别反映 Actor 与 Critic 的拟合质量;
- dist_entropy 告诉我们策略从随机走向确定性的程度;
- average_episode_rewards 是最终最直观的性能衡量,表明了策略是否真正提升。
如果它们之间能呈现一致性(如价值损失下降、策略熵平稳下降、回报上升),就说明算法在朝着正确方向前进;若出现冲突或异常(如回报上升而价值损失猛涨、梯度飙升或熵骤降),就要进一步排查并调参。
小结
在多智能体强化学习(例如 MAPPO)的训练过程中,这些曲线能帮助你判断:
- 算法是否稳定收敛(看回报、policy_loss、ratio);
- 策略是否过早收敛或仍在充分探索(看 dist_entropy);
- Critic 学得好不好(value_loss 与 critic_grad_norm);
- 是否存在梯度爆炸或训练停滞(actor_grad_norm、critic_grad_norm)。
通过持续监控和分析这些训练曲线,就能快速定位潜在问题并进行合理的超参数或网络结构调整,从而得到更优的多智能体合作策略。