David Silver深度强化学习第1课- intro-RL

最新推荐文章于 2024-03-08 13:42:03 发布

学习炒菜的小芹菜

最新推荐文章于 2024-03-08 13:42:03 发布

阅读量419

点赞数

分类专栏：深度强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41913844/article/details/81570348

版权

深度强化学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

网课：https://space.bilibili.com/74997410/#/
（1）https://www.bilibili.com/video/av9831889
PPT:http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/intro_RL.pdf
参考：https://blog.csdn.net/songrotek/article/details/50572935
在这里插入图片描述

David Silver深度强化学习第1课 intro-RL
在这里插入图片描述

Agent（我们创建的算法）

算法就是一个从history映射到action的过程，其中history：在这里插入图片描述
由于history包含了太多冗长的信息，因此我们用state代替history。

State

state is a function of history
在这里插入图片描述
两种形式的state

environment state（环境状态）
是环境信息的展示，通常不可视，即使可见也会包含不相关信息
agent state
也是数字形式。whatever information the agent uses to pick the
next action

以上两种状态的数学形式是Markov状态。 Markov状态具有Markov性质：将来的状态St+1只与现在的状态St有关，而与过去的状态无关。（状态表示法）。现在的状态St决定了未来所有的观测、状态、奖励、行动。

使用RL时，我们的主要任务即在完全可观测环境下创建agent状态，并以此决定下一步的policy。
在这里插入图片描述

部分观测环境下代理必须建立其自己的状态体现（贝叶斯分布/最近agents状态与最新观测状态的线性组合，即循环神经网络）

Policy(圆周率Π)

在这里插入图片描述

Value Function

在这里插入图片描述

Model

在这里插入图片描述

catagorizing RL agents

在这里插入图片描述

预测vs控制

在这里插入图片描述

学习炒菜的小芹菜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
David Silver深度强化学习第1课- intro-RL

深度强化学习入门视频列表：第一课：https://www.bilibili.com/video/av9831889/ PPT:http://www0.cs.ucl.ac.uk/staff/D.Silver/web/Teaching_files/intro_RL.pdf快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl + Q插入...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。