Termination梯度理论

最新推荐文章于 2024-04-24 11:16:57 发布

xcgfth

最新推荐文章于 2024-04-24 11:16:57 发布

阅读量154

点赞数

分类专栏： Reinforcement Learning

本文链接：https://blog.csdn.net/qq_32893343/article/details/103605819

版权

Reinforcement Learning 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

$Q_{\Omega}(s, \omega)=\sum_{a} \pi_{\omega, \theta}(a | s) Q_{U}(s, \omega, a) \quad \text{(1)}$

$Q_{U}(s, \omega, a)=r(s, a)+\gamma \sum_{s^{\prime}} \mathrm{P}\left(s^{\prime} | s, a\right) U\left(\omega, s^{\prime}\right) \quad \text{(2)}$

$U\left(\omega, s^{\prime}\right)=\left(1-\beta_{\omega, \vartheta}\left(s^{\prime}\right)\right) Q_{\Omega}\left(s^{\prime}, \omega\right)+\beta_{\omega, \vartheta}\left(s^{\prime}\right) V_{\Omega}\left(s^{\prime}\right) \quad \text{(3)}$

从(1, 2, 3)，我们有：
$\frac{\partial Q_{\Omega}(s, \omega)}{\partial \vartheta}=\sum_{a} \pi_{\omega, \theta}(a | s) \sum_{s^{\prime}} \gamma \mathrm{P}\left(s^{\prime} | s, a\right) \frac{\partial U\left(\omega, s^{\prime}\right)}{\partial \vartheta}$

因此，关键量是 $U$ 的梯度。这是一种call-and-return执行的自然的结果，其中，只有在进入下一个状态时才能评估termination函数的“优劣”。相关的梯度可以进一步扩展为：

$\begin{aligned} \frac{\partial U\left(\omega, s^{\prime}\right)}{\partial \vartheta} &=-\frac{\partial \beta_{\omega, \vartheta}\left(s^{\prime}\right)}{\partial \vartheta} A_{\Omega}\left(s^{\prime}, \omega\right) + \gamma \sum_{\omega^{\prime}} \sum_{s^{\prime \prime}} \mathrm{P}\left(s^{\prime \prime}, \omega^{\prime} | s^{\prime}, \omega\right) \frac{\partial U\left(\omega^{\prime}, s^{\prime \prime}\right)}{\partial \vartheta} \end{aligned}$

其中， $A_\Omega$ 是options上的优势函数： $A_{\Omega}\left(s^{\prime}, \omega\right)=Q_{\Omega}\left(s^{\prime}, \omega\right)-V_{\Omega}\left(s^{\prime}\right)$ 。循环地扩展 $\frac{\partial U\left(\omega^{\prime}, s^{\prime \prime}\right)}{\partial \vartheta}$ 可以得到intra-option相似的形式，但不同的是，这里的state-option对是根据Markov链随time step转移的：

$\mu_{\Omega}\left(s_{t+1}, \omega_{t} | s_{t}, \omega_{t-1}\right)$

termination梯度理论。给定一个马尔可夫options集，其随机termination的函数关于参数 $v$ 是可微的。关于 $v$ 和初始条件 $(v_1, \omega_0)$ 的期望折扣汇报的梯度是:

$-\sum_{s^{\prime}, \omega} \mu_{\Omega}\left(s^{\prime}, \omega | s_{1}, \omega_{0}\right) \frac{\partial \beta_{\omega, \vartheta}\left(s^{\prime}\right)}{\partial \vartheta} A_{\Omega}\left(s^{\prime}, \omega\right)$

其中， $\mu_{\Omega}\left(s^{\prime}, \omega | s_{1}, \omega_{0}\right)$ 是一个从 $(s_1, \omega_0)$ 开始的state-option对折扣加权：

$\mu_{\Omega}\left(s, \omega | s_{1}, \omega_{0}\right)=\sum_{t=0}^{\infty} \gamma^{t} \mathrm{P}\left(s_{t+1}=s, \omega_{t}=\omega | s_{1}, \omega_{0}\right)$