DQN

D Q N DQN DQN


前置:


一般掌握DQN需要看5篇文章:


前两篇基础:

  • 《Playing Atari with Deep Reinforcement Learning》-2013

在这里插入图片描述

在这里插入图片描述

  • 《Human-level control through deep reinforcement learning》-2015

在这里插入图片描述


后三篇改进:

  • 《Deep Reinforcement Learning with Double Q-learning》-2016
  • 《Dueling Network Architectures for Deep Reinforcement Learning》-2016
  • 《PRIORITIZED EXPERIENCE REPLAY》-2016

代码实例(论文复现)


演示图片


DQN之前:

当时主流的研究方法是使用人工设计的特征,结合线性函数以拟合value function,这是因为非线性方法经常难以收敛

同时也有一部分使用深度学习拟合某个固定策略的value function,并保证了收敛,但是还没有类似的方法推广到非线性的控制问题中


Deep Q-Network历史意义:

  • 正式开启深度强化学习的阶段
  • 强化学习智能体首次轻易超越人类
  • 一部分研究人员开始认识到强化学习和深度学习结合的潜力
  • 这是第一篇成功的结合深度学习和强化学习的研究成果,让强化学习不借助人工设计的特征
  • 使用非线性函数来拟合value function
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值