CS229 Lecture 20

Light_blue_love

于 2021-05-15 21:33:24 发布

阅读量148

点赞数

分类专栏： CS229 ML

本文链接：https://blog.csdn.net/Light_blue_love/article/details/116835673

版权

CS229 同时被 2 个专栏收录

20 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

CS229 Lecture 20

POMDPs(Partially Observed MDPs)
Policy search
Reinforce
Pagasus
conclusion

回顾

$s_{t+1}=As_t+Ba_t+w_t$

$y_t=Cs_t+v_t$

$A_{t+1}:a_{t+1}=L_ts_t$

在LQR问题中，因为噪声等因素的存在无法观测到真实状态 $s_t$ ，只能通过混杂着噪声的观察状态 $y_1，y_2,\cdots,y_t$ 来得出下一步的动作。首先需要得出对 $s_t$ 的最佳估计 $s_{t|t}$ ，通过Kalman Filter可以得出 $s_{t|y_1,y_2,\cdots,y_t}\sim N(s_{t|t},\Sigma_{t|t})$ ,然后通过 $a_t:=L_t,s_{t|t}$ 。

POMDPs

部分观测马尔可夫决策过程定义为一个元组 $(S,A,Y,\{P_{sa}\},\mathcal{O},T,T)$ ,其中 $Y$ 是所有可能观测值的集合， $\mathcal{O}_s$ 是观测所属的分布,每次观测中在 $s_t$ 下观测为 $y_t$ 服从 $y_t\sim \mathcal{O}_{st}$ 。

Policy search

$policy\,\,\,search$ 和之前LQR方式不同在于，之前通过最大化值函数 $V^{\star}$ 进而得出最佳的 $\pi^{\star}$ 。这里的 $policy\,\,\,search$ 是直接对 $p o l i c y$ 进行选取。

定义 $\Pi$ 为 $p o l i c y$ 的合集，需要在 $\Pi$ 中搜索到好的 $\pi$ ,其中 $\pi\in \Pi$ ,这里十分类似于在最前面学习的监督学习，在假设集合 $\mathcal{H}$ 中搜索到一个好的假设。

定义一个随机 $p o l i c y$ 为一个 $\pi:S\times A\rightarrow \mathbb{R}$ 的函数，这里 $\pi(s,a)$ 是在状态 $s$ 下采取动作 $a$ 的概率。注 $\sum\pi(s,a)=1,\,\,\pi(s,a)\ge0$ 。

在这里插入图片描述

课上使用 $Policy\,\,search$ 的例子：假设一个倒立摆，其中摆与垂线的夹角为 $\phi$ 小车的位置为 $x$ ,现在小车无非两个选择向左运动或者向右运动。假设向右运动为 $a_1$ ，向左为 $a_2$ 。假设有： $\pi_{\theta}(s,a_1)=\frac{1}{1+e^{-\theta^Ts}},\,\,\,\pi_{\theta}(s,a_2)=1-\frac{1}{1+e^{-\theta^Ts}}$ 。这里 $s=\\\left[ \begin{matrix}1 \\ x \\ \dot{x} \\ \phi \\ \dot{\phi} \end{matrix} \right]$ , $\theta=\left[ \begin{matrix} 0 \\ 0 \\ 0 \\ 1 \\ 0 \end{matrix} \right]$ ，那么 $p(a=a_1)=\frac{1}{1+e^{-\theta^Ts}}=\frac{1}{1+e^{-\phi}}$ 。下图就是小车向右运动和夹角 $\phi$ 的关系。例如当夹角为正时，我们需要向右移动以保证倒立摆不倒下。

在这里插入图片描述
实际上我们的目标是最大化预期回报 $\max_{\theta}E[R(s_0,a_0)+\dots+R(s_T,a_t)|\pi_{\theta},s_0]$

注：当动作是多个离散的选择是可以选择 $s o f t m a x$ 函数，动作是连续的可以选取动作的密度函数。

Reinforce algorithm

假设 $s_0$ 是一个固定的初始状态，我们的期望是： $\max_{\theta}E[R(s_0,a_0)+\dots+R(s_T,a_t)|\pi_{\theta},s_0]$

其中回报的期望为：

$E[R(s_0,a_0)+\dots+R(s_T,a_t)|\pi_{\theta},s_0]\\ =\sum_{s_0,a_0,s_1,\cdots,s_t}p(s_0,a_0,s_1,\cdots,s_t)[R(s_0,a_0)+\dots+R(s_T,a_t)|\pi_{\theta},s_0]\\ =\sum_{s_0,a_0,s_1,\cdots,s_t}p(s_0)\pi_{\theta}(s_0,a_0)p_{s_0,a_0}(s_1)\pi_{\theta}(s_1,a_i)\cdots\pi_{\theta}(s_t,a_t)[R(s_0,a_0)+\dots+R(s_T,a_t)|\pi_{\theta},s_0]$

算法的流程为：
$L o o p$ {

     抽样 $s_0,a_0,s_1,a_1,\cdots,s_t,a_t$
     计算收益 $=[R(s_0,a_0)+\dots+R(s_T,a_t)|\pi_{\theta},s_0]$
     更新 $\theta$ 的方式为： $\theta:=\theta+\alpha[\frac{\nabla_{\theta}{\pi_{\theta}(s_0,a_0)}}{\pi_{\theta}(s_0,a_0)}+\cdots+\frac{\nabla_{\theta}{\pi_{\theta}(s_T,a_T)}}{\pi_{\theta}(s_T,a_T)}]*payoff$
}

上述算法之所以使用梯度上升的方式更新 $\theta$ 见下面推导：

链式求导原则
$\frac{d}{d\theta}f(\theta)g(\theta)h(\theta)=f^{'}(\theta)g(\theta)h(\theta)+f(\theta)g^{'}(\theta)h(\theta)+f(\theta)g(\theta)h^{'}(\theta)$

我们的目的是使得期望回报最大因此我们对回报的期望求导：
$\nabla_{\theta}E[\,payoff]\\ =\sum_{s_0,a_0,s_1,\cdots,s_t}[p(s_0)(\nabla_{\theta}{\pi_{\theta}(s_0,a_0)})p_{s_0,a_0}(s_1)\pi_{\theta}(s_1,a_i)\cdots\pi_{\theta}(s_t,a_t)+p(s_0)\pi_{\theta}(s_0,a_0)p_{s_0,a_0}(s_1)(\nabla_{\theta}{\pi_{\theta}(s_1,a_1)})\cdots\pi_{\theta}(s_t,a_t)+\\ p(s_0)\pi_{\theta}(s_0,a_0)p_{s_0,a_0}(s_1)\pi_{\theta}(s_1,a_i)\cdots(\nabla_{\theta}\pi_{\theta}(s_t,a_t))]*payoff\\ =\sum_{s_0,a_0,s_1,\cdots,s_t}p(s_0)\pi_{\theta}(s_0,a_0)p_{s_0,a_0}(s_1)\pi_{\theta}(s_1,a_i)\cdots\pi_{\theta}(s_t,a_t)*[\frac{\nabla_{\theta}{\pi_{\theta}(s_0,a_0)}}{\pi_{\theta}(s_0,a_0)}+\cdots+\frac{\nabla_{\theta}{\pi_{\theta}(s_T,a_T)}}{\pi_{\theta}(s_T,a_T)}]*payoff\\ =\sum_{s_0,a_0,s_1,\cdots,s_t}p(s_0,s_1,\cdots,s_t,a_t)*[\frac{\nabla_{\theta}{\pi_{\theta}(s_0,a_0)}}{\pi_{\theta}(s_0,a_0)}+\cdots+\frac{\nabla_{\theta}{\pi_{\theta}(s_T,a_T)}}{\pi_{\theta}(s_T,a_T)}]*payoff\\ =E[\frac{\nabla_{\theta}{\pi_{\theta}(s_0,a_0)}}{\pi_{\theta}(s_0,a_0)}+\cdots+\frac{\nabla_{\theta}{\pi_{\theta}(s_T,a_T)}}{\pi_{\theta}(s_T,a_T)}]*payoff$

在POMDPs也可以使用 $policy\,\,\,search$ ，假设有 $s$ 的近似值 $\hat{s}$ (可以通过Kalman Filter 计算 $\hat{s}=s_{t|t}$ )。如 $\pi_{\theta}(\hat{s},a)=\frac{1}{1+e^{-\theta \hat{s}}}$

Pegasus

Pegasus是Policy Evaluation of Gradient And Search Using Scenarios的缩写。我们一般马尔可夫的过程是 $s_0 \stackrel{\pi(s_0)}\longrightarrow s_1 \stackrel{\pi(s_1)}\longrightarrow s_2 \stackrel{\pi(s_2)} \longrightarrow s_3\cdots \stackrel{\pi(s_{T-1})}\longrightarrow s_T$ ,在实际应用中一般会创建一个模拟来模拟输入 $s_t$ 和 $s_t$ 得到 $s_{t+1}$ 的过程，我们一般假设 $s_{t+1}=As_t+Ba_t+w_t$ 可以知道每次模拟器生产 $s_{t+1}$ 的时候都带有随机噪声，那么当我们在 $p o l i c y$ 搜索时候，如果 $p o l i c y$ 不同且 $w_t$ 的噪声每次还有很大差异就很难找到最优的 $p o l i c y$ ，因此此时存在多个变化的量，无法根据最大回报来得出最佳的 $p o l i c y$ 。因为我们的模拟器因为要模拟噪声，那么每次都会生成随机数来实现，即使是相同的策略，得出的回报也会不同。我们需要做的就是在每个场景固定一组随机数，基于这个随机数场景计算各个 $p o l i c y$ 的回报，然后平均多个随机数序列场景然后评估出最佳的 $p o l i c y$ 。这就是Pegasus名字的由来。

一般来说直接的决策(如：自动驾驶、倒立摆)使用 $p o l i c y s e a r c h$ 比较好，而对于前面的决策对后续回报有影响的(如：围棋、俄罗松方块)最好选择值迭代方式找到最佳的 $p o l i c y$

注：pegasus 请参见Lecture 20 48分～65分的讲解

结论

CS229 2008系列完结！

Light_blue_love

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CS229 Lecture 20

CS229 Lecture 20POMDPs(Partially Observed MDPs)Policy searchReinforcePagasusconclusion回顾st+1=Ast+Bat+wts_{t+1}=As_t+Ba_t+w_tst+1=Ast+Bat+wtyt=Cst+vty_t=Cs_t+v_tyt=Cst+vtAt+1:at+1=LtstA_{t+1}:a_{t+1}=L_ts_tAt+1:at+1=Ltst在LQR问题中，因为噪声
复制链接

扫一扫

专栏目录