【密歇根大学博士论文】深度强化学习进展:内在奖励,时间信用分配,状态表示和价值等效模型...

68b87584d381afe6612d7cab6017b3ab.png

来源:专知
本文为论文介绍,建议阅读5分钟
本文旨在进一步推进深度学习技术。

cb784d00768e1c5d9926121336665753.png

强化学习(Reinforcement learning, RL)是一种机器学习范式,研究智能体如何学习预测和控制自己的经验流,以最大化长期累积奖励。在过去的十年中,深度强化学习(deep reinforcement learning, DeepRL)是一个旨在将强化学习中的序列决策技术与深度学习提供的强大的非线性函数逼近工具相结合的子领域,取得了巨大的成功,例如在古老的棋盘游戏围棋中击败人类冠军,以及在复杂的战略游戏如Dota 2和星际争霸中取得专家级别的表现。它还对现实世界的应用产生了影响。例如机器人控制、平流层气球导航和控制核聚变等离子体。

https://deepblue.lib.umich.edu/handle/2027.42/174601

本文旨在进一步推进深度学习技术。具体而言,本文在以下四个方面做出了贡献:1)在奖励设计方面,提出了一种新的元学习算法,用于学习有助于策略优化的奖励函数。该算法提高了策略梯度方法的性能,并优于手工设计的启发式奖励函数。在后续研究中,学习到的奖励函数可以捕获关于长期探索和开发的知识,并可以泛化到不同的强化学习算法和环境动态的变化。2)在时间信用分配中,本文探索了基于成对权重的方法,这些权重是采取行动的状态、收到奖励的状态和之间经过的时间的函数。本文开发了一种元梯度算法,用于在策略学习期间自适应这些权重。实验表明,该方法比其他方法取得了更好的性能。3)在状态表示学习中,本文研究使用随机深度动作条件预测任务作为辅助任务,以帮助智能体学习更好的状态表示。实验表明,随机的深度动作条件预测通常可以产生比手工设计的辅助任务更好的性能。4)在模型学习和规划中,提出了一种学习价值等价模型的新方法,这是一类最近表现出强大经验性能的模型,推广了现有的方法。实验结果表明,该方法能够提高模型预测精度和下游规划过程的控制性能。

75e36e8d693c167b29dc97f5d87fca7e.png

3361bfeae9a5862a732e479fb1c7785f.png

a05ce2a9924eb48cba89c1b59aecd1ca.png

74e24d1bd765d8fcbd2de13af27d5d5d.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值