Reinforcement Learning - Morvan Python

最新推荐文章于 2024-01-18 15:16:48 发布

chitoseyono

最新推荐文章于 2024-01-18 15:16:48 发布

阅读量465

点赞数

分类专栏： MachineLearning 文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chitoseyono/article/details/87974581

版权

MachineLearning 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

地址在这：莫凡的强化学习教程，比较入门的RL教程，例子简单好懂，作为入门还蛮好的？但不建议直接看，一开始可以先看看Sutton书里的balancing methods或者Udacity的强化学习课了解一些基本概念，再来看莫凡的简单例子就会更加融会贯通。

Q-Learning

在这里插入图片描述
重点就是递推的那行Bellman公式，Q是一个table，两轴分别是state与action，其值为当前的价值，那行公式的意思就是：
初始的 Q(S, A) 就是你在 S 执行 A 的假设价值，而从你在 S 执行了 A ，获得了报酬R并进入S’，且假设你后面都会执行暂时价值最大的行动 a 以产生后续的更多的延迟价值（其实就是每一步行动影响到后面的整体价值提升），那么 R+maxaQ(S’, a) 这段实际上就是预期的价值，用预期值-假设值，其中再加上个衰减率 γ 决定延迟价值的影响，还有学习率 α 就是整条公式了。

Easy Example: 改编成Gym格式的找宝藏小游戏

Sarsa

在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Reinforcement Learning - Morvan Python

比较入门的RL教程，例子简单好懂，作为入门挺好的？
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。