强化学习的数学原理（6-7）

最新推荐文章于 2024-06-22 21:53:36 发布

Na_Lv

最新推荐文章于 2024-06-22 21:53:36 发布

阅读量1k

点赞数 25

分类专栏：学习笔记文章标签：算法机器学习动态规划

本文链接：https://blog.csdn.net/m0_59466752/article/details/134952038

版权

学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第六课随机近似理论和随机梯度下降

1.Mean Estimation
首先回顾在Monte Carlo Estimation中，我们通过采样求平均估计期望值，为了更高效地实现这一过程，可以使用增量思想计算平均值。

这样建立起 $w_k$ 和 $w_{k+1}$ 的关系就可以直接更新平均值。
了解以上思路之后可以提出一个假设：将 $1/ k$ 替换为 $\alpha_k$ ，等式是否还成立，是否会有更多的应用场景。
Stochastic Approximation
SA算法是一系列用于求解优化问题的随机迭代算法的统称，它的特点在于无需已知目标函数的表达式或者可导性。
2.Robbins-Monro Algorithm
问题描述：

RM算法求解：

RM收敛性定理：

其中每一个条件的详细含义在于：
需要特别说明的是：条件2是限制 $a_k$ 要收敛到0但又不能收敛的太快，例如 $1/ k$ 就完全满足该条件
Mean Estimation就是一种特殊的Robbins-Monro Algorithm：
3.Stochaxtic Gradient Descent(SGD)
问题 :

Method 1: Gradient Descent (GD) 梯度下降
$w_{k+1}=w_k- \alpha_k \nabla_w\mathbb{E}[f(w_k,X)]=w_k- \alpha_k\mathbb{E}[ \nabla_wf(w_k,X)]$ Method 2: Batch Gradient Descent (BGD) 批量梯度下降
$\mathbb{E}[ \nabla_wf(w_k,X)]\approx\frac {1}{n} \sum_{i=1}^{n}\nabla_wf(w_k,x_i)$ $w_{k+1}=w_k- \alpha_k\frac {1}{n} \sum_{i=1}^{n}\nabla_wf(w_k,x_i)$ Method 3: Stochastic Gradient Descent (SGD) 随机梯度下降
$w_{k+1}=w_k- \alpha_k\nabla_wf(w_k,x_k)$
对比上述方法的表达式不难发现，SGD使用一个随机采样的梯度（stochastic gradient）近似原函数的梯度(true gradient)
SGD的收敛证明：

因为SGD就是特殊的RM算法
相似算法比较：

第七课时序差分方法

导入
问题的开始我们想求解的随机变量的期望，于是我们将其转化为了等式求根的优化问题，并结合上一课所提出的方法，得到了求解的迭代方程

当相关随机变量有函数变化：
更进一步引入第二个随机变量：

Temporal Difference Learnig Algorithm
TD算法的本质在于求解model-free的Bellman公式（policy evaluation）：
使用导入部分得到的第三个迭代公式估计state value

TD Target意味着随着时间 $t$ 增加， $v(s_t) \to \bar{v_t}$
TD Error中 $v(s_t)$ 表示的是 $t$ 时刻；而 $r_{t+1}+\gamma v(s_{t+1})$ 在 $t + 1$ 时刻

更重要的是， $\delta_t$ 表示了当前对state value的估计值 $v_t$ 与待求的state value准确值 $v_{\pi}$ 之间的差距。也就是说，在计算中当出现新的 $s_t,r_{t+1},s_{t+1})$ ，带入计算TD Error就可以发现 $v_t$ 与 $v_{\pi}$ 之间的差距，可以用于进一步改进 $v_t$ 。

下面是对TD算法的收敛性证明：

不难发现，上述过程都是对Bellman方程做了一些常规的变形和代入，并借助RM算法求解，得到的最终公式与TD Learning公式有两处微小差别，但整体上并不影响其收敛性。（具体证明见课本）

两种model-free算法的对比：

尽管TD的方差更小，但是它估计的平均值可能会有偏差，因为估计过程依赖于初始值；而MC属于无偏估计。
Sarsa Algorithm

不难看出，Sarsa与TD算法有极大的相似性，相当于把state value全部换为了action value。

该过程基于policy iteration的思想，采取 $\epsilon$ -greedy策略
下面是对经典Sarsa的两种推广算法
Expected Sarsa Algorithm

注意与经典Sarsa的区别：不再需要 $a_{t+1}$ 而是采用 $A$ [同时相应地增加了一次期望计算]，他解决的Bellman方程为：

n-step Sarsa Algorithm
通过与TD算法和Sarsa求解的Bellman方程不同，得到n-step Sarsa Algorithm的公式：

Q-Learning Algorithm

这里TD Target中的 $ma x$ 体现了对 $a$ 的优化，因为此时他求解的问题是bellman最优方程：

两种策略下的Q-Learning算法伪代码：

Summary
整理对比几种不同算法的TD Target和解决的问题：

On-policy 与 Off-policy ：
在了解二者区别之前，先掌握behavior policy 与 target policy
behavior policy指与环境不断交互，生成experience的策略；target policy指不断更新直到最后得到optimal policy的策略。当behavior policy 与 target policy一致时即为On-policy，否则为Off-policy。更简洁地描述的方式：On-policy表示的是实时学习优化过程，而Off-policy是事后学习优化。如：Sarsa和MC Learning都是On-policy的，Q-Learning是Off-policy的。

课本链接：https://westlakeu-my.sharepoint.com/:b:/g/personal/lyujialing_westlake_edu_cn/ETz-mSO6hHREuuO7fYlJ-n4BSirN1PZienJPe77FehoM2A?e=GmpRnL