深度学习8-加速强化学习训练的方法

五百五。

已于 2023-01-14 14:23:55 修改

阅读量1.1k

点赞数 2

分类专栏：深度学习文章标签：深度学习人工智能

于 2022-12-31 19:15:24 首次发布

本文链接：https://blog.csdn.net/clayhell/article/details/128507802

版权

本文探讨了加速强化学习（RL）训练的方法，包括通过改进算法和环境包装器来提升训练速度。在解决Pong游戏的过程中，通过平滑奖励、步数等指标进行监控，并介绍了DQN中神经网络的用途。文章还概述了应用于Atari游戏的DeepMind风格包装器，如NoopResetEnv、MaxAndSkipEnv等，以解决初始观察、闪烁问题和部分可观察性等问题，从而加速收敛。

摘要由CSDN通过智能技术生成

# 2022.6.2 rl-9

### 加速强化学习训练的方法

▪ 使用第8章的Pong环境，并试图尽可能快地解决它。
▪ 使用完全相同的硬件，逐步解决Pong问题并将速度提升3.5倍。
▪ 讨论更先进的方法来加速强化学习（RL）训练，这些方法在将来可能会很常见。

**即使是简单的ML问题，也几乎不可能在第一次尝试时就能正确实现。**
在找到正确的超参、修复所有的bug并让代码就绪前，需要试验很多次。物理模拟、RL研究、大数据处理和一般编程都有同样的过程。所以，如果能让程序运行得更快，并不只是单次程序运行会受益，我们同样可以快速代码迭代并做更多次的实验，这很大程度上能加速整个处理过程并提升最终结果的质量。

**在训练时，代码会向TensorBoard写入几个指标：**
▪ reward：从片段得到的未经折扣的奖励，x轴是片段数。
▪ avg_reward：和奖励一样，只不过用alpha=0.98做了求平均值的平滑处理。
▪ steps：片段持续的步数。通常，一开始智能体很快就输了，所以每个片段大概在1000步左右。然后，它学会如何表现得更出色，所以步数会随着奖励一起增加。但是，在最后，当智能体已经能掌控游戏的时候，步数又落回2000步，因为策略的完善标准是尽快赢得游戏（因为折扣因子γ）。实际上，这种片段长度的降低可能标识着对环境过拟合，这是RL中的一个巨大问题。但是，它不在本书的讨论范围内。
▪ loss：训练时，每迭代100次采样一次的损失。它应该在2e-3到7e-3，当智能体发现新行为时，会导致其奖励值和从Q