DQN从入门到放弃5 深度解读DQN算法

最新推荐文章于 2023-01-07 09:25:46 发布

阿拉蕾二

最新推荐文章于 2023-01-07 09:25:46 发布

阅读量747

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44906416/article/details/89307641

版权

0 前言

如果说DQN从入门到放弃的前四篇是开胃菜的话，那么本篇文章就是主菜了。所以，等吃完主菜再放弃吧！

1 详解Q-Learning

在上一篇文章DQN从入门到放弃第四篇中，我们分析了动态规划Dynamic Programming并且由此引出了Q-Learning算法。可能一些知友不是特别理解。那么这里我们再用简单的语言描述一下整个思路是什么。

为了得到最优策略Policy，我们考虑估算每一个状态下每一种选择的价值Value有多大。然后我们通过分析发现，每一个时间片的Q(s,a)和当前得到的Reward以及下一个时间片的Q(s,a)有关。有些知友想不通，在一个实验里，我们只可能知道当前的Q值，怎么知道下一个时刻的Q值呢？大家要记住这一点，Q-Learning建立在虚拟环境下无限次的实验。这意味着可以把上一次实验计算得到的Q值拿来使用呀。这样，不就可以根据当前的Reward及上一次实验中下一个时间片的Q值更新当前的Q值了吗？说起来真是很拗口。下面用比较形象的方法再具体分析一下Q-Learning。

Q-Learning的算法如下：

对于Q-Learning，首先就是要确定如何存储Q值，最简单的想法就是用矩阵，一个s一个a对应一个Q值，所以可以把Q值想象为一个很大的表格，横列代表s，纵列代表a，里面的数字代表Q值，如下表示：

这样大家就很清楚Q值是怎样的了。接下来就是看如何反复实验更新。

Step 1：初始化Q矩阵，比如都设置为0

Step 2：开始实验。根据当前Q矩阵及 $\epsilon-greedy$ 方法获取动作。比如当前处在状态s1，那么在s1一列每一个Q值都是0，那么这个时候随便选择都可以。

假设我们选择a2动作，然后得到的reward是1，并且进入到s3状态，接下来我们要根据

最低0.47元/天解锁文章

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
DQN从入门到放弃5 深度解读DQN算法

DQN从入门到放弃5 深度解读DQN算法
复制链接

扫一扫

阿拉蕾二 CSDN认证博客专家 CSDN认证企业博客

码龄5年

171: 原创

40万+: 周排名

186万+: 总排名

13万+: 访问

: 等级

2930: 积分

41: 粉丝

36: 获赞

15: 评论

220: 收藏

私信

关注

热门文章

最新评论

树莓派 FFmpeg 支持GPU硬解码
m0_66040581: 老板是不是用树莓派硬解4k视频，先需要您说的这个操作啊？
浅谈JavaSE性能优化（1）——BufferedImage与像素级渲染
heisenberg1017: RGBA应该右移吧 public void handlesinglepixel(int x, int y, int pixel) { int alpha = (pixel >> 24) & 0xff; int red = (pixel >> 16) & 0xff; int green = (pixel >> 8) & 0xff; int blue = (pixel ) & 0xff; // Deal with the pixel as necessary... }
ubuntu刷新DNS
Wxxkrain: 我差点以为自己瞎了
CentOS安装nvidia显卡驱动的正确方法
windmyself: 2. 查找合适的驱动执行yum install nvidia-detect 报错，提示Loaded plugins: fastestmirror, langpacks Loading mirror speeds from cached hostfile * base: mirrors.ustc.edu.cn * extras: mirrors.ustc.edu.cn * updates: mirrors.ustc.edu.cn No package nvidia-detect available. Error: Nothing to do
ubuntu刷新DNS
2022年度最佳搬砖户: 您这博客有点费眼啊。。。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。