实战深度强化学习DQN-理论和实践

最新推荐文章于 2024-10-10 19:02:51 发布

文文学霸

最新推荐文章于 2024-10-10 19:02:51 发布

阅读量77

点赞数

文章标签：机器学习算法人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/abcdefg90876/article/details/130436317

版权

本文介绍了深度强化学习中的DQN算法，包括Q-learning回顾，DQN的基本概念、解决的问题、算法流程，以及DQN在实践中如何应用，并提供了简单的实现DEMO，帮助理解DQN的工作原理。

摘要由CSDN通过智能技术生成

1、Q-learning回顾

Q-learning 的算法过程如下图所示：

在Q-learning中，我们维护一张Q值表，表的维数为：状态数S * 动作数A，表中每个数代表在当前状态S下可以采用动作A可以获得的未来收益的折现和。我们不断的迭代我们的Q值表使其最终收敛，然后根据Q值表我们就可以在每个状态下选取一个最优策略。

Q值表的更新公式为：

公式中，Q(S,A) 我们可以称做Q估计值，即我们当前估计的Q值，而：

称为Q-target，即我们使用贝尔曼方程加贪心策略认为实际应该得到的奖励，我们的目标就是使我们的Q值不断的接近Q-target值。

2、深度Q网络(Deep - Q - Network)

2.1 DQN简介

为什么会出现DQN呢
在普通的Q-learning中，当状态和动作空间是离散且维数不高时可使用Q-Table储存每个状态动作对的Q值，而当状态和动作空间是高维连续时，使用Q-Table不现实。

两篇DQN奠基之作

[1]Playing Atari with Deep Reinforcement Learning
[2]Human-level control through deep reinforcement learning

如何将原始的Q-learning转换成深度学习问题
将Q-Table的更新问题变成一个函数拟合问题，相近的状态得到相近的输出动作。如下式，通过更新参数 θ 使Q函数逼近最优Q值。因此，DQN就是要设计一个神经网络结构，通过函数来拟合Q值，即：

2.2 DL和RL结合带来的问题

1、DL需要大量带标签的样本进行监督学习；RL只有reward返回值，而且伴随着噪声，延迟(过了几十毫秒才返回)，稀疏(很多State的reward是0)等问题；
2、DL的样本独立；RL

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。