深度学习8-加速强化学习训练的方法

本文探讨了加速强化学习(RL)训练的方法,包括通过改进算法和环境包装器来提升训练速度。在解决Pong游戏的过程中,通过平滑奖励、步数等指标进行监控,并介绍了DQN中神经网络的用途。文章还概述了应用于Atari游戏的DeepMind风格包装器,如NoopResetEnv、MaxAndSkipEnv等,以解决初始观察、闪烁问题和部分可观察性等问题,从而加速收敛。
摘要由CSDN通过智能技术生成

# 2022.6.2 rl-9

### 加速强化学习训练的方法

▪  使用第8章的Pong环境,并试图尽可能快地解决它。
▪  使用完全相同的硬件,逐步解决Pong问题并将速度提升3.5倍。
▪  讨论更先进的方法来加速强化学习(RL)训练,这些方法在将来可能会很常见。

**即使是简单的ML问题,也几乎不可能在第一次尝试时就能正确实现。**
在找到正确的超参、修复所有的bug并让代码就绪前,需要试验很多次。物理模拟、RL研究、大数据处理和一般编程都有同样的过程。所以,如果能让程序运行得更快,并不只是单次程序运行会受益,我们同样可以快速代码迭代并做更多次的实验,这很大程度上能加速整个处理过程并提升最终结果的质量。

**在训练时,代码会向TensorBoard写入几个指标:**
▪  reward:从片段得到的未经折扣的奖励,x轴是片段数。
▪  avg_reward:和奖励一样,只不过用alpha=0.98做了求平均值的平滑处理。
▪  steps:片段持续的步数。通常,一开始智能体很快就输了,所以每个片段大概在1000步左右。然后,它学会如何表现得更出色,所以步数会随着奖励一起增加。但是,在最后,当智能体已经能掌控游戏的时候,步数又落回2000步,因为策略的完善标准是尽快赢得游戏(因为折扣因子γ)。实际上,这种片段长度的降低可能标识着对环境过拟合,这是RL中的一个巨大问题。但是,它不在本书的讨论范围内。
▪  loss:训练时,每迭代100次采样一次的损失。它应该在2e-3到7e-3,当智能体发现新行为时,会导致其奖励值和从Q

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

五百五。

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值