GPS方法中监督相推导

最新推荐文章于 2024-04-01 21:54:41 发布

犹有傲霜枝

最新推荐文章于 2024-04-01 21:54:41 发布

阅读量103

点赞数

文章标签： GPS 引导策略搜索监督相优化

本文链接：https://blog.csdn.net/qq_41009742/article/details/107434708

版权

GPS方法中监督相推导

GPS方法中监督相优化问题
$\pi_{\theta} \leftarrow \arg \min _{\theta} \sum_{t, i, j} D_{\mathrm{KL}}\left(\pi_{\theta}\left(\mathbf{u}_{t} \mid \mathbf{x}_{t, i, j}\right) \| p_{i}\left(\mathbf{u}_{t} \mid \mathbf{x}_{t, i, j}\right)\right)$
其中 $\pi_{\theta}\left(\mathbf{u}_{t} \mid \mathbf{x}_{t}\right)=\mathcal{N}\left(\mu^{\pi}\left(\mathbf{x}_{t}\right), \Sigma^{\pi}\left(\mathbf{x}_{t}\right)\right)$ ， $p_{i}\left(\mathbf{u}_{t} \mid \mathbf{x}_{t}\right)=\mathcal{N}\left(\mathbf{K}_{t i} \mathbf{x}_{t}+\mathbf{k}_{t i}, \mathbf{C}_{t i}\right)$ ， $i$ 为condition的数量， $j$ 为采样数量。

展开 $p_{i}\left(\mathbf{u}_{t} \mid \mathbf{x}_{t}\right)$ 可得：
$\begin{aligned} p_{i}\left(\mathbf{u}_{t} \mid \mathbf{x}_{t}\right)& =\mathcal{N}\left(\mathbf{K}_{t i} \mathbf{x}_{t}+\mathbf{k}_{t i}, \mathbf{C}_{t i}\right) \\ & = \frac{1}{\sqrt{(2\pi)^{m}}|\mathbf{C}_{ti}|}\exp(-\frac{1}{2}(\mathbf{u}_t-(\mathbf{K}_{t i} \mathbf{x}_{t}+\mathbf{k}_{t i}))^T\mathbf{C}_{t i}^{-1}(\mathbf{u}_t-(\mathbf{K}_{t i} \mathbf{x}_{t}+\mathbf{k}_{t i}))) \end{aligned}$

接下来有：
$\begin{aligned} &D_{\mathrm{KL}}\left(\pi_{\theta}\left(\mathbf{u}_{t} \mid \mathbf{x}_{t, i, j}\right) \| p_{i}\left(\mathbf{u}_{t} \mid \mathbf{x}_{t, i, j}\right)\right) \\ &= \int\pi_{\theta}\ln\frac{\pi_\theta}{p} \\ & = -\int\pi_\theta\ln p - (-\int \pi_\theta\ln\pi_\theta) \\ & = -\mathbb{E}_{\pi_\theta}\left[\ln p\right] - \mathcal{H}(\pi_\theta) \\ & = \mathbb{E}_{\pi_\theta}\left[\frac{1}{2}\ln((2\pi)^m|\mathbf{C}_{ti}|)+\frac{1}{2}(\mathbf{u}_t-(\mathbf{K}_{t i} \mathbf{x}_{t}+\mathbf{k}_{t i}))^T\mathbf{C}_{t i}^{-1}(\mathbf{u}_t-(\mathbf{K}_{t i} \mathbf{x}_{t}+\mathbf{k}_{t i}))\right] - \mathcal{H}(\pi_\theta) \\ \end{aligned}$

由多变量高斯分布之间的KL散度（KL Divergence）知：
在这里插入图片描述

$\begin{aligned} &D_{\mathrm{KL}}\left(\pi_{\theta}\left(\mathbf{u}_{t} \mid \mathbf{x}_{t, i, j}\right) \| p_{i}\left(\mathbf{u}_{t} \mid \mathbf{x}_{t, i, j}\right)\right) \\ &= \frac{1}{2}\ln((2\pi)^m|\mathbf{C}_{ti}|) + \frac{1}{2}(\text{tr}(\mathbf{C}^{-1}\Sigma^{\pi}(\mathbf{x}_{t,i,j})) +(\mu^{\pi}(\mathbf{x}_{t,i,j})-\mu^p_{ti}(\mathbf{x}_{t,i,j}))^T\mathbf{C}_{t i}^{-1}(\mu^{\pi}(\mathbf{x}_{t,i,j})-\mu^p_{ti}(\mathbf{x}_{t,i,j})) - \frac{1}{2}\ln|\Sigma^{\pi}(\mathbf{x}_{t,i,j})| - \text{const} \end{aligned}$

所以：
$\begin{aligned} \pi_{\theta} \leftarrow \arg \min _{\theta} \sum_{t, i, j} (\text{tr}(\mathbf{C}^{-1}\Sigma^{\pi}(\mathbf{x}_{t,i,j})) +(\mu^{\pi}(\mathbf{x}_{t,i,j})-\mu^p_{ti}(\mathbf{x}_{t,i,j}))^T\mathbf{C}_{t i}^{-1}(\mu^{\pi}(\mathbf{x}_{t,i,j})-\mu^p_{ti}(\mathbf{x}_{t,i,j})) - \ln|\Sigma^{\pi}(\mathbf{x}_{t,i,j})| \end{aligned}$