【牛津大学博士论文】深度强化学习的归纳偏差和泛化

9854e43c649f4af7aec8f7a0d4460229.png

来源:专知
本文为论文介绍,建议阅读5分钟在本文中,我们的目标是改进深度强化学习中的泛化。

4051cbdb56f4979984fbc875aabf0014.png

在本文中,我们的目标是改进深度强化学习中的泛化。对任何类型的学习来说,泛化都是一项基本挑战,它决定了如何将已获得的知识转移到新的、以前从未见过的情况中。本文专注于强化学习,这是一个描述人工智能体如何学习与环境交互以实现目标的框架。近年来,利用神经网络表示智能体取得了显著的成功,并极大地扩展了其可能的应用范围。本文的目标是通过允许这些智能体更快地学习,学习更好的解决方案,并对以前未见过的情况做出鲁棒的反应,从而提高它们的性能。在这个探索中,我们探索了一系列不同的方法和途径。我们专注于将额外的结构,也称为归纳偏差,纳入主体。专注于特定的,但广泛适用的问题领域,我们可以开发专门的架构,从而大大提高性能。在第3章中,我们关注的是部分可观察环境,在这种环境中,智能体每时每刻都不能完全访问所有与任务相关的信息。在第4章中,我们将注意力转向多任务和迁移学习,并设计了一种新的训练方法,允许训练分层结构的智能体。我们的方法优化了单个解决方案的可重用性,大大提高了传输设置中的性能。

在本文的第二部分中,我们将注意力转向正则化,这是另一种形式的归纳偏差,作为提高深度智能体泛化的方法。在第五章中,我们首先探讨了强化学习(RL)中的随机正则化。虽然这些技术已被证明在监督学习中非常有效,但我们强调并克服了将它们直接应用到在线RL算法中的困难,这是RL中最强大和应用最广泛的学习类型之一。在第6章中,我们通过探索训练数据中的瞬态非平稳性如何干扰神经网络的随机梯度训练,并使其偏向较差的解,在更基本的水平上研究了深度rl中的泛化。许多先进的RL算法将这些类型的非平稳性引入到训练中,甚至在平稳环境中,通过使用持续改进的数据收集策略。我们提出了一个新的框架,以减少经过训练的策略所经历的非平稳性,从而允许改进的泛化。

d32dd40a39d5636a62acaf1e5c535a89.png

e30e82cdf120ceb58a440563e922ab85.png

22078ba37bd8521c4adb9a87a831b10d.png

2535236f20fb572ad85cd2368c4c9ce0.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值