深度强化学习DQN系算法理解

本文详细介绍了深度强化学习中的DQN算法,包括将Q-学习转化为深度学习问题、解决DL与RL结合的问题的方法,如经验回放、双网络结构(DDQN)、优先级回放和竞争网络(Dueling Network)。DQN通过神经网络拟合Q值,使用经验回放和目标网络解决样本相关性问题,而Dueling Network则将Q值分解为状态价值和动作优势,提高学习效果。
摘要由CSDN通过智能技术生成

致谢
进行DQN方法整理时,主要对原文进行了学习,并参考了几位作者的笔记,在此一并表示感谢。索引网页如下:
https://www.jianshu.com/p/6fe18d0d8822
https://www.jianshu.com/p/0fb311d96da4
https://www.cnblogs.com/pinard/p/9797695.html
https://blog.csdn.net/mike112223/article/details/92798121

【Volodymyr Mnih, Koray Kavukcuoglu, David Silver, et al. Playing Atari with Deep Reinforcement Learning. arXiv preprint arXiv:1312.5602, 2013】【Mnih, V., Kavukcuoglu, K., Silver, D. et al. Human-level control through deep reinforcement learning. Nature 518, 529–533 (2015).】【Hado van Hasselt, Arthur Guez, David Silver. Deep Reinforcement Learning with Double Q-learning. arXiv preprint arXiv: 1509.06461, 2015】

1.将原始Q-学习问题转化为深度学习问题

核心是将Q-Table的更新问题变成一个函数拟合问题,使得相近的状态得到相近的输出动作。通过更新参数 θ 使Q函数逼近最优Q值 。DQN就是要设计一个神经网络结构,通过函数来拟合Q值:在这里插入图片描述

2. DL和RL结合的问题与解决方法

存在问题:

①DL需要大量带标签的样本进行监督学习;RL只有reward返回值,而且伴随着噪声、延迟(过了几十毫秒才返回)、稀疏(很多State的reward是0)等问题;

②DL的样本独立;RL前后state状态相关;

③DL目标分布固定;RL的分布一直变化,比如你玩一个游戏,一个关卡和下一个关卡的状态分布是不同的,所以训练好了前一个关卡,下一个关卡又要重新训练;

④使用非线性网络表示值函数时可能过高估计动作价值。计算Q-target值的过程如下,

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值