（专栏，满满踩坑干货）深度强化学习落地方法论（7）—— 训练篇

本文探讨了如何确保DRL算法的训练过程有效、可靠，包括环境可视化、数据预处理、监控熵值等步骤。作者强调实践经验的重要性，指出理论知识结合实践才是调参的关键，最终目标是追求算法的本质而非单纯的技术细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接：https://zhuanlan.zhihu.com/p/99901400

专栏链接：https://www.zhihu.com/column/c_1186982555915599872

为了保证DRL算法能够顺利收敛，policy性能达标并具有实用价值，结果有说服力且能复现，需要算法工作者在训练前、训练中和训练后提供全方位一条龙服务。我记得GANs刚火起来的时候，因为训练难度高，有人在GitHub上专门开了repository，总结来自学术界和工业界的最新训练经验，各种经过或未经验证的tricks被堆砌在一起，吸引了全世界AI爱好者的热烈讨论，可谓盛况空前。在玄学方面，DRL算法训练有得一拼。但毕竟在科研领域没有人真的喜欢玄学，只有久经考验的一般化规律才能凝结成知识被更多的人接受和推广。本篇接下来的内容融合了许多个人经验和各种参考资料，算是在DRL训练“去玄学”化上做出的一点微不足道的努力。

1. 训练开始前

1.1 环境可视化

如果条件允许，开始训练前最好先可视化一个随机环境，观察是否会出现你希望的状态（即上一篇里的主线事件）。如果靠随机选择action都能以一定概率探索到目标状态，那说明该任务难度比较低，心里就可以更有底；如果从来不会出现目标状态，说明该任务难度较高，需要在状态空间和reward函数设计时特别下功夫，从而更好地引导agent向目标状态前进。

1.2 数据预处理

你还可以实时打印出state和reward，看看它们是否在合理范围内取值，是否存在幅值过大的情况，如果是则需要增加必要的归一化操作。事实上，我推荐无条件进行状态空间归一化和reward rescale & clipping，实践证明这两个操作无论在收敛速度还是最终性能上都会带来明显提升。前一个操作很好理解，我只介绍一下reward rescale & clipping，该操作尤其适合基于episode的A3C/A2C/PPO算法，参考形式为r=clip(r/(std(Return)+ (-∞,1] ，该值越接近1说明拟合精度越高。建议训练过程中将该值实时打印到tensorboard中，并不断监测Value网络的质量。

2. 观察entropy是否处在合理范围内，相对于action维度是否过高或过低？

假如policy输出10维categorical分布，其entropy有两种极端情况：(1) 完全随机，每个维度概率均为0.1，此时entropy最大等于10*[-0.1*log(0.1)]=2.3；(2) 完全确定，其中一维为1.0其余都是0.0，此时entropy最小等于0。整个训练过程，entropy从2.3开始逐渐下降，当训练收敛后，entropy应该稳定在较低水平。如果太高则说明policy对决策信心不足，如果不是任务本身太复杂那就是entropy系数过大造成的，应该适当降低该系数增加exploitation的力度，很有可能继续提升模型性能。当然，entropy很少能降到0，除非是极其简单的任务。

4. 总结

经过前后近一个月零零星星的整理，这篇又臭又长的训练篇终于快要结束了，连我自己都觉得枯燥透顶，如果有哪位读者能坚持读到这里，我敬你是个勇士！我也时常怀疑写这些东西到底有没有意义，毕竟包括DRL在内的深度学习调参技巧往往琐碎而不成体系，很难总结得面面俱到，更何况新算法还在源源不断地涌现，旧的知识经验正在迅速“贬值”，就像现在有了Soft Actor-Critic，谁还用DDPG啊。最重要的是，假如读者不经过亲身实践，直接看这些干巴巴的总结，作用真心不大。对我自己来说，就权当备忘吧~

事实上，当你通过广泛阅读和动手实践，对各种DRL算法原理有了深入理解，对各种超参数的作用了然于胸，自然而然就会形成自己的调参方法论。只要算法收敛，性能达标，项目验收，调参的细节没那么重要。此外，调参工作毕竟只停留在“术”的层面，而我们应该追求的是算法之“道”，孰轻孰重每个人都要心里有数。祝愿每一个算法工程师最终都能做到“调尽千参，心中无参”。