深度强化学习是否存在过拟合的问题

最新推荐文章于 2024-04-05 12:47:19 发布

大囚长

最新推荐文章于 2024-04-05 12:47:19 发布

阅读量2k

点赞数 4

分类专栏：机器学习

原文链接：https://www.zhihu.com/question/40554481

版权

机器学习专栏收录该内容

38 篇文章 5 订阅

订阅专栏

本文探讨了深度强化学习中过拟合问题的挑战，引用OpenAI的CoinRun实验展示了过拟合现象，介绍了dropout、L2正则、数据增强、批处理标准化和环境随机性等克服过拟合的有效策略。作者强调了在受限环境训练与通用性的权衡，以及这些方法在解决过拟合问题上的应用和局限性。

摘要由CSDN通过智能技术生成

原文：https://ai-guru.de/fighting-overfitting-in-deep-reinforcement-learning/

过拟合是深度学习和传统机器学习中的一个众所周知的问题。

过拟合可以粗略地解释为：模型在多大程度上记住了训练数据。大量的过拟合可以理解为缺乏普遍性，即缺乏泛化能力。你的模型不能很好地处理它尚未看到的数据。通常，这会导致模型无法正常工作。

可以肯定的是，深度强化学习也遭受过拟合的困扰。

深度强化学习采用数据驱动的方法深度学习，并将其提升到目标驱动的水平。它不再处理数据，而是将重点放在创建能够行动、表现良好和执行最佳策略的Agents。

在深度学习中，缺乏泛化能力的原因是Agents无法在尚未出现的情况下取得理想的结果。例如，在计算机游戏中，创建一个学习如何玩固定等级游戏的Agent很容易。但是这个Agent可能会在从未玩过的游戏等级上失败。

OpenAI做了一些出色的实验，并在他们的文章中发表了结果。他们引入了一个叫做CoinRun的新环境，它和经典的平台游戏相似。游戏目标是通过一个关卡，找到并收集藏在某处的硬币。CoinRun最有趣的地方是：所有级别都是按程序生成的。

考虑到这个游戏可以产生无限数量的关卡，研究人员用几个固定级别的子集做了实验。正如预期的那样，当只有进行4K级别的训练时，存在着很大程度的过拟合。4K级别对于人类玩家来说，已经相当高的级别了。但令人惊讶的是，在16K的训练水平下仍然可以看到过拟合。最后我们认知到，最好的Agent是那些在不受级别限制的环境下训练出来的。

But，我们也认识到，在不受级别限制上的训练是不可行或不可能的。深度学习中也存在一个类似的问题。我们可以认为在深度学习中得到更多的数据，就等于在强化学习中得到了更多的训练。显然，这两者在一些情况下都是不可能的。

OpenAI运行了几个子实验，来研究如何减少过拟合。结果如下：