强化学习笔记3-解bellman方程

最新推荐文章于 2022-02-27 15:55:07 发布

Lyra717

最新推荐文章于 2022-02-27 15:55:07 发布

阅读量593

点赞数 1

分类专栏： RL

本文链接：https://blog.csdn.net/weixin_39328611/article/details/114786317

版权

RL 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

贪婪策略

某一策略是贪婪的for 状态值方程V，if $\pi(s,a)=1 $ ifa等于估计状态动作值方程最大值，否则为0；
在这里插入图片描述

最优策略（最大的状态值方程）

$V^{*}(s)=max_{\pi} V^{\pi}(s)$
V的贪婪策略是最优的，V的贪婪策略可能不止一个，但所有的 $V^{\pi ^{*}}$ 都等于V*；
如何计算最优策略？（期望）
计算最优状态值方程，写出Bellman equation，从各部分加到一起
V*（s）是从s开始收集的最多的reward
Q*（s,a）是从s开始收集的第一次使用action a的最多reward

最优值方程

在这里插入图片描述将Q带入V,得到最优状态值方程的bellman等式
非线性，有解且唯一，排除长期规划问题

解

线性编程太多方程，太多矩阵，这里我们可以采用动态编程（DP）：

策略迭代
值迭代
已知P（s,a，s’）和R（s，a）
如果不知道这些量则用Monte Carlo或者temporal difference方法

1 策略迭代：已知value fuction的话我们可以improve the stategy（先evaluate 该策略然后改善，直到收敛）

迭代 stategy evaluation-用Bellman operator
$T_{\pi}$ 是value function（mapping）,告诉我们当使用 $\pi$ 时state的value，是贝尔曼operator，V-> $T_{\pi}$
在这里插入图片描述
然后我们应用V
$V_{\pi}$ 是贝尔曼operator的fixed point 方程的解： $V$ = $T_{\pi}V$ ;

过程：V_{0}任意， $V_{k+1}=T_{\pi}V_{k},V_{k}->V^{\pi}$

改进策略：给定 $\pi,V^{\pi}$ ，如果存在 $\pi^{'}$ ，对于所有s，使
在这里插入图片描述
，也就是说，我们
improve一步相当于整体improve

收敛性：T这个operator作用于收敛的值方程，任意U,V满足：（系数小于1）在这里插入图片描述
Banach-fixed point 理论：收敛的operator有唯一的fixed point

整个策略迭代过程：在这里插入图片描述
2 值迭代
直接迭代V*，使用贪婪operator （收敛）

V是 $V=T^{*}V$ 的解

过程：V0 任意， $V_{t+1}=T^{*}V_{t}$ ，收敛时停止，fixed point:V

两种迭代比较：

策略迭代巫妖少量迭代次数，但是耗时长
值迭代在多项式时间收敛到最优值
策略迭代收敛但不知道limit
取决于实际example

DP 方法

收敛，但是，慢，需啊哟建模，严格的马尔科夫assumption
这些在RL方法中改进

Lyra717

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习笔记3-解bellman方程

贪婪策略某一策略是贪婪的for 状态值方程V，if $\pi(s,a)=1 $ ifa等于估计状态动作值方程最大值，否则为0；最优策略（最大的状态值方程）V∗(s)=maxπVπ(s)V^{*}(s)=max_{\pi} V^{\pi}(s)V∗(s)=maxπVπ(s)V的贪婪策略是最优的，V的贪婪策略可能不止一个，但所有的 Vπ∗V^{\pi ^{*}}Vπ∗都等于V*；如何计算最优策略？（期望）计算最优状态值方程，写出Bellman equation，从各部分加到一起V*（s）是从s
复制链接

扫一扫