# 2022.6.2 rl-9
### 加速强化学习训练的方法
▪ 使用第8章的Pong环境,并试图尽可能快地解决它。
▪ 使用完全相同的硬件,逐步解决Pong问题并将速度提升3.5倍。
▪ 讨论更先进的方法来加速强化学习(RL)训练,这些方法在将来可能会很常见。
**即使是简单的ML问题,也几乎不可能在第一次尝试时就能正确实现。**
在找到正确的超参、修复所有的bug并让代码就绪前,需要试验很多次。物理模拟、RL研究、大数据处理和一般编程都有同样的过程。所以,如果能让程序运行得更快,并不只是单次程序运行会受益,我们同样可以快速代码迭代并做更多次的实验,这很大程度上能加速整个处理过程并提升最终结果的质量。
**在训练时,代码会向TensorBoard写入几个指标:**
▪ reward:从片段得到的未经折扣的奖励,x轴是片段数。
▪ avg_reward:和奖励一样,只不过用alpha=0.98做了求平均值的平滑处理。
▪ steps:片段持续的步数。通常,一开始智能体很快就输了,所以每个片段大概在1000步左右。然后,它学会如何表现得更出色,所以步数会随着奖励一起增加。但是,在最后,当智能体已经能掌控游戏的时候,步数又落回2000步,因为策略的完善标准是尽快赢得游戏(因为折扣因子γ)。实际上,这种片段长度的降低可能标识着对环境过拟合,这是RL中的一个巨大问题。但是,它不在本书的讨论范围内。
▪ loss:训练时,每迭代100次采样一次的损失。它应该在2e-3到7e-3,当智能体发现新行为时,会导致其奖励值和从Q