深度强化学习中的泛化

本文探讨了深度强化学习中的泛化问题,对比了监督学习中的过拟合现象,并分析了在强化学习(RL)中,过度拟合如何影响策略的泛化能力。作者提到了通过引入随机网络层来改善泛化性能,以此帮助模型学习更通用的特征,降低对环境特定细节的依赖。实验表明,这种方法在强化学习任务中表现出优秀的泛化效果。
摘要由CSDN通过智能技术生成

Overfitting in Supervised Learning

机器学习是一门学科,其中给定了一些训练数据\环境,我们希望找到一个优化目标的模型,但其目的是在训练期间从未见过的数据上表现出色。通常将其称为Generalization,即一种学习某些东西的能力,这些东西超出了训练环境的特定范围。

为了做到这一点,我们通常要求训练数据的分布代表我们真正希望表现良好的真实数据分布。我们将数据拆分为训练集和测试集,并尝试确保两个集合代表相同的分布。在监督的学习环境中可以很容易地看到它:

在这里插入图片描述
我们可以看到,虽然训练样本和测试样本不同,但是它们是由相同的基础过程生成的。如果不是这种情况,监督学习中泛化的标准概念将无法成立,并且很难证明我们期望在训练集上进行学习也应在测试集上产生良好的结果。

机器学习中的一个常见挑战是避免过度拟合,这是我们的模型“过分”适合训练数据的细节和细微差别的条件,而这不利于其在测试数据上的性能。

在这里插入图片描述
在上面的示例中,我们可以看到正弦曲线(黑色曲线)为数据提供了不错的近似值。当我们将数据拆分为训练集(蓝色)和测试集(红色)时,我们发现尝试将训练集“太好”拟合会导致橙色曲线明显不同于黑色曲线,并且在测试集中表现不佳。

Overfitting in RL

在强化学习中,情况有所不同。当考虑尽可能最好地玩Atari游戏的任务时,似乎不清楚我们能否区分某些训练环境和测试环境。如果我训练我的agent玩“ Breakout”,并且表现良好,那不是开始的目标吗?直到最近,这一直是RL研究中的情况,并且大多数研究论文都报告了在与该agent训练的相同环境下得出的结果。

成为首创的第一个RL工作是有关使用ALE环境学习玩Atari游戏的DeepMind原始论文。ALE是确定性的,2015年发表的一篇名为“

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值