强化学习——day30 无监督学习算法

最新推荐文章于 2023-04-06 16:23:46 发布

想太多!

最新推荐文章于 2023-04-06 16:23:46 发布

阅读量222

点赞数

文章标签：强化学习时序差分柯西数列

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43537420/article/details/127038059

版权

无监督学习算法

Sarsa 算法
Q学习（离线学习策略）
SARSA与Q学习对比实验

Sarsa 算法

从知道什么是好的，到如何做好行动

在这里插入图片描述
π：策略

SARSA

Q表示在状态s，动作a下的价值函数

在这里插入图片描述

使用SARSA的在线策略控制

在这里插入图片描述

伪代码

在这里插入图片描述

SARSA示例

在这里插入图片描述

Q学习（离线学习策略）

在这里插入图片描述

离线策略学习

在这里插入图片描述

Q学习

在这里插入图片描述

使用Q学习的离线策略控制

在这里插入图片描述

Q学习控制算法

在这里插入图片描述

Q学习的收敛性

在这里插入图片描述

文献：Melo, Francisco s."Convergence of Q-learning: A simple proof."Institute of systemsand Robotics, Tech.Rep (2001):1-4.

收敛性证明（选看）

直接从Q函数证明
在这里插入图片描述

柯西数列

在这里插入图片描述

SARSA与Q学习对比实验

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习——day30 无监督学习算法

Sarsa 算法从知道什么是好的，到如何做好行动SARSA使用SARSA的在线策略控制伪代码SARSA示例Q学习（离线学习策略）离线策略学习Q学习使用Q学习的离线策略控制Q学习控制算法Q学习的收敛性收敛性证明（选看）柯西数列SARSA与Q学习对比实验
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。