强化学习之Deep Q Network的理解

lix_gogogo

于 2023-02-25 12:03:51 发布

阅读量329

点赞数

分类专栏：强化学习文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mengdeer_Q/article/details/129213870

版权

强化学习专栏收录该内容

5 篇文章

订阅专栏

Deep Q Network是一种将神经网络和强化学习结合的算法，这里我介绍下我的理解，如果有误还请指正。

首先，该算法既然是基于Q-learning，那么我将Q-learning和更新的图放出以便对比介绍（图来源于B站UP莫烦）：

Q-learning：

Deep Q Network：

首先要明确这里的神经网络到底是拿来干啥的。即对于特别复杂的问题，Q表是非常巨大和复杂的，可能存在特别多的状态和动作，比如围棋问题（可能性超过了宇宙的原子，所谓“千古无同局”），一般的电脑根本没法存储和计算这么大的Q表。而神经网络却可以解决该问题。

也就是说，神经网络用于代替Q表。

根据Q-learning算法，Q表的更新需要Q现实和Q估计，而这两个值本身也是Q表产生的。同样的思路，这里的神经网络代替Q表，那么就通过神经网络代替Q表的作用生成Q现实和Q估计，再由Q现实和Q估计的差更新神经网络。

具体的流程为(自己结合Q-learning算法和上面第二幅图的理解)：

1、输入状态S，由神经网络给出S状态下的所有Q值（Q估计）。这里每个Q值对应一个动作（理论上应该会输出对应动作）。

2、根据贪婪算法，根据S状态下的所有Q值选择动作A（即可能是Q值最大的动作也可能是随机的动作）。

3、根据神经网络得到状态S选择动作A后的状态S_的所有Q值，奖励值R和对应动作A_

4、计算Q实际（R+maxQ(S_,A_)）和Q估计（Q(S,A)）的差更新神经网络

这里有个问题，即图2中给出的好像是根据所有输出的Q值进行更新，而实际的Q-learning只会更新选择的那个Q值。我这里介绍的思路也是更新选择的Q值，未选择的不予以更新。

博客等级

码龄5年

34
原创

44
点赞

107
收藏

3
粉丝

关注

私信

热门文章

分类专栏

最新评论

梯度含义的理解
土鳖一个: 网络上的定义。。。
梯度含义的理解
lix_gogogo: 切平面是针对任意维度而言的
梯度含义的理解
lijg26: 或者改为：梯度是曲面上某点切平面的法向量在自变量平面的投影。
梯度含义的理解
lijg26: 第一个解释的误导性太强，我建议归纳为错误解释。切平面一般指的不都是曲面的切平面嘛，他这定义曲线的切线所在的平行于因变量轴的平面才叫切平面，纯误导人。
Tensorboard的使用
CSDN-Ada助手: 不知道 Python入门技能树是否可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。