根据视频学习DQN(Deep Q-learning)

最新推荐文章于 2024-06-10 00:35:53 发布

加油加油的加油机

最新推荐文章于 2024-06-10 00:35:53 发布

阅读量355

点赞数

文章标签：学习机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42929804/article/details/129585086

版权

学习网址：https://www.bilibili.com/video/BV1We4y1w7Us?p=3&vd_source=11b7b2a48a6540147996012cfff314e8

第一节P1：深度强化学习中用到的基本概念
P2:关于DQN的输入及输出，以及详细的讲了其更新Q的原理及过程。
P3:策略函数π【是一个概率密度函数，所有结果值加和为1】

策略函数与Q都是深度强化学习对未来预测的途径，知道其一即可解决问题。不同点在于，Q*是只与当前S与A有关的，它针对某一时刻的S，对该时刻可以进行的动作A打分，机器选择得分高的动作以继续游戏。而策略函数是对该时刻S可进行的动作A计算出概率，然后机器进行一次随机抽样以继续进行游戏。

P4:更新过程如下，用TD更新w，以此来改进Qπ（价值网络）。用w来更新θ，以此来改进π（策略网络）。
在这里插入图片描述
P5:强化学习有奖励，而模仿学习(如limitation learning)没有奖励，其训练的目的是模仿行为。
Behavior cloning 是一种limitation learning，是一种分类或回归方法，而不是强化学习方法
P6:蒙特卡洛算法-一种近似求解的算法
P7:Sarsa算法-TD算法的一种
P8:Q-learning -也是一种TD算法，Sarsa是用来训练Qπ
Q-learning 是用来训练Q*

加油加油的加油机

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
根据视频学习DQN(Deep Q-learning)

不同点在于，Q*是只与当前S与A有关的，它针对某一时刻的S，对该时刻可以进行的动作A打分，机器选择得分高的动作以继续游戏。而策略函数是对该时刻S可进行的动作A计算出概率，然后机器进行一次随机抽样以继续进行游戏。P5:强化学习有奖励，而模仿学习(如limitation learning)没有奖励，其训练的目的是模仿行为。P4:更新过程如下，用TD更新w，以此来改进Qπ（价值网络）。P8:Q-learning -也是一种TD算法，Sarsa是用来训练Qπ。P2:关于DQN的输入及输出，以及详细的讲了其更新Q。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。