强化学习笔记1

最新推荐文章于 2024-06-16 17:56:40 发布

opencv_2012

最新推荐文章于 2024-06-16 17:56:40 发布

阅读量206

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/opencv_2012/article/details/86929963

版权

强化学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

参考资料：

1) David Silver的强化学习视频

2) Sutton的Reinforcement Learning入门，第二版

3) Shangtong Zhang代码,地址：https://github.com/ShangtongZhang/reinforcement-learning-an-introduction

对应了Sutton的书中的练习；

先是几个概念：

1,Agent 和Environment
Agent_and_Environment

在t时刻，

Agent执行 $A_{t}$ ，接收 $O_{t}$ 和奖赏 $R_{t}$

Environment接收动作 $A_{t}$ ，释放 $O_{t+1}$ 和 $R_{t+1}$

2，History和State

History是一个序列，而State是History的函数：

H&S

3, Reward和Returns

t时刻的Reward $R_{t}$ 是一个标量；

t时刻的Returns $G_{t}$ 定义为：

R&R

其中，0 $\leqslant$ $\gamma$ $\leqslant$ 1

当 $\gamma$ 接近于0的时候，只考虑未来一小段时间的Reward，这个 $G_{t}$ 被看成是myopic的；

当 $\gamma$ 接近于0的时候，考虑了未来很长一段时间的Reward，这个 $G_{t}$ 被看成是far-sighted的；

4, Policy ,Value Function, Model

Policy是Agent的行为，是state到action的映射，包括：

确定性策略：a = $\pi$ (s)

统计策略： $\pi$ (a | s) = P[ $A_{t}$ = a | $S_{t}$ = s]

Value Function是对未来奖赏的预测，用来估计状态的好坏，继而选择要执行的动作，定义为：

Model预测Environment接下去将怎么做，Model由状态转移概率P和奖赏R组成，通常定义为：

5,对上面的流程画了个图，（model和value function是用来找最优策略的，看第6条）。

6，有model和无model

前面看出，如果知道了某个策略 $\pi$ 对应的model，也就是知道了策略 $\pi$ 对应的各种状态的转移概率P和奖赏R，可以直接求出值函数 $V_{\pi}$ ，利用 $V_{\pi}$ 可以找到最优策略 $\pi_{*}$ ，后面的章节还能看出，在所有策略中，对于任意的状态 $S_{t}$ = s，这个最优策略 $\pi_{*}$ 对应的值函数 $V_{\pi_{*}}(s)$ 都是最大的。

但是，后面的章节会提到，绝大多数情况是无模型的，如何在无模型的情况下去估计值函数呢？看后续。

因此，强化学习的任务是：估计值函数，找最优策略。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记1

本文是看David Silver的强化学习视频的时候记的笔记，整理了视频的思路，补充了一些证明。先是几个概念：1,Agent 和Environment在t时刻，Agent执行，接收和奖赏Environment接收动作，释放和2，History和StateHistory是一个序列，而State是History的函数：3, Reward和Return...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。