白给的神经过程Neural Processes笔记（二）

无始之始

已于 2023-04-05 17:32:01 修改

阅读量881

点赞数 3

分类专栏：深度学习模式识别文章标签：机器学习神经网络深度学习人工智能回归

于 2023-04-03 17:40:40 首次发布

本文链接：https://blog.csdn.net/huangdianye/article/details/129929957

版权

深度学习同时被 2 个专栏收录

8 篇文章 0 订阅

订阅专栏

模式识别

5 篇文章 1 订阅

订阅专栏

前言

上文我们讲解了什么是高斯过程，接下来我们将会讲解什么是神经过程，实际上就是引入隐变量，将高斯过程网络化。上文分析，高斯过程实际上就是分析输入变量的分布，并依据新的输入在训练样本输入分布中的位置（决定不确定性）来对训练样本的输出分配权重，最后线性组合（决定输出）输出预测值。这个基本逻辑将指导高斯过程的网络化魔改。神经过程由Deep Mind在2018年ICML会议中首次提出，下面我们先对问题进行建模，然后推导，最后给出样例和实现代码。

1. 问题描述

1.1 一般化描述

定义一个随机过程Stochastic process, $F$ ，定义 $\rho_{x_{1:n}}(y_{1:n})$ 为 $(F(x_1),~F(x_2),~\dots,~F(x_n))$ 的边缘分布，那么有： $\rho_{x_{1:n}}(y_{1:n})=\rho_{x_1,~x_2,~\dots,~x_n}(y_1,~y_2,~\dots,~y_n)$

假设随机过程服从分布 $f\sim p(f)$ ，那么我们有： $\rho_{x_{1:x}}(y_{1:n})=\int p(f)p(y_{1:n}|f,~x_{1:n})df$
假设观测结果 $y$ 带有一定的噪声，即 $y_i=f(x_i)+\sigma^2$ ，且样本之间相互独立，则上式可以改写为：
$\rho_{x_{1:x}}(y_{1:n})=\int p(f)\prod_{i=1}^n\mathcal{N}\left(y_i|f(x_i),~\sigma^2\right)df$

1.2 分布函数参数化

高斯过程是将随机过程 $f$ 的分布假定为一个多元高斯分布，并用均值 $\mu$ 和方差 $\Sigma$ 参数化表示。神经过程借用了同样的思想，只是现在的分布更加一般化了， $f$ 被近似为一个神经网络，且参数为 $z$ ，网络的目的就是要学习参数 $z$ 的分布，又是一个网络。 $z\sim p(z)$ $\rho_{x_{1:x}}(y_{1:n})=\int p(f)\prod_{i=1}^n\mathcal{N}\left(y_i|g(x_i, z),~\sigma^2\right)df$ 这样问题就转化为 $p(z|x_{1:n},~y_{1:n})$ 。怎么理解上面的式子？高斯过程是先在一个函数集合 $\mathcal{GP}$ 中采样出 $\mu$ , $\Sigma$ ，然后再以 $x$ 为条件，输出 $y$ 。这里也是同样的过程，先从某一概率分布 $p (z)$ 中采样出 $z$ 然后以 $x$ 为条件，输出 $y$ ，即 $g (x, z)$ 。下面我们参照https://zhuanlan.zhihu.com/p/42305808的分析逻辑，对NP进行推演。

2.问题求解

2.1 变分推断预备知识

1). 分解边缘分布
为了求后验分布，我们首先想到的是使用变分推断variational inference的方法，而变分法是从边缘分布开始推导的，如下：
$\begin{aligned} p(y)=&\frac{p(y,z)}{p(z|y)}=\frac{p(y,z)/q(z)}{p(z|y)/q(z)}\\ \log p(y) =& \log\frac{p(y,z)}{q(z)} - \log\frac{p(z|y)}{q(z)}\\ \log p(y) =& \int q(z)\log\frac{p(y,z)}{q(z)}dz - \int q(z)\log\frac{p(z|y)}{q(z)}dz\\ \log p(y) =& ELBO + \mathcal{KL}\left(q(z)\|p(z|y)\right) \end{aligned}$ 在贝叶斯公式中， $p (y)$ 为marginal likelihood 也被称作evidence, 因为KL散度表征的是两个概率分布之间的距离，他是没有方向性的，始终大于零，因此具有以下不等式， $\mathcal{KL} \ge ELBO$ , evidence lower bound, ELBO 也因此得名，为evidence的下界。变分推断的基本原理就是，当下界ELBO无限逼近evidence分布，KL散度中的两个概率分布将无限靠近，直至为0。此时提议分布proposal distribution, $q (z)$ 将无限靠近我们想求解的后验分布 $p (z ∣ y)$ ，从而解毕。由于 $\log p(y)$ 是一个确定的数，因此问题最终转换为最大化 $E L BO$
2). 求下界ELBO
进一步分析ELBO，将提议分布 $q (z)$ 改写为引入了先验知识的q(z|y) $\begin{equation}\begin{aligned} ELBO=& \int q(z|y)\log\frac{p(y,z)}{q(z|y)}dz\\ =& \int q(z|y)\log\frac{p(y|z)p(z)}{q(z|y)}dz\\ =& \mathbb{E}_{q(z|y)}\left[\log p(y|z) + \log\frac{p(z)}{q(z|y)}\right]\\ \end{aligned}\end{equation}$

2.2 变分推断应用到当前的场景中

公式（1）中的 $y$ 变量实际上应该为 $y ∣ x$ ，即 $x$ 作为 $y$ 的条件， $x$ 在整个推导过程中始终处于条件的位置，此外，样本之间相互独立，综上公式（1）的最终结果改写为：
$ELBO=\mathbb{E}_{q(z|x_{1:n},~y_{1:n})}\left[\sum\log_{i=1}^n p(y_i|z,~x_i) + \log\frac{p(z)}{q(z|x_{1:n},~y_{1:n})}\right]$ 然而这样处理还不够，对于回归任务，我们的期望是根据一部分已知数据 $x_{1:m},~y_{1:m}$ ，去回归 $x_{(m+1):n}$ 对应的 $y_{(m+1):n}$ ，即 $p(y_{(m+1):n}|x_{1:n},~y_{1:m})$ , 所以最终改写的公式如下：
$\begin{equation} ELBO=\mathbb{E}_{q(z|x_{1:n},~y_{1:n})}\left[\sum\log_{i=m+1}^n p(y_i|z,~x_i) + \log\frac{p(z|x_{1:m},~y_{1:m})}{q(z|x_{1:n},~y_{1:n})}\right] \end{equation}$ 这里的 $p(z|x_{1:m},~y_{1:m})$ 也同样是没有办法处理的，因此需要再用一个变分推断，用 $q(z|x_{1:m},~y_{1:m})$ 近似他的分布。这里的 $x_{1_m},~y_{1:m}$ 表示上下文信息，contextual information，其输出会与输入的上下文信息发生改变，类似于现在对话系统。我们将 $\mathcal{C}$ 定义为context 数据， $\mathcal{C}=\{1:m\}$ , $\mathcal{T}=\{1:n\}$ ，在代码实现的时候，公式(2)将会改写为：
$\begin{equation} \begin{aligned} ELBO=&\mathbb{E}_{q(z|x_{\mathcal{T}},~y_{\mathcal{T}})}\left[\sum\log_{i=m+1}^n p(y_i|z,~x_i)\right] - \mathbb{E}_{q(z|x_{\mathcal{T}},~y_{\mathcal{T}})}\left[\log\frac{q(z|x_{\mathcal{T}},~y_{\mathcal{T}})}{p(z|x_{\mathcal{C}},~y_{\mathcal{C}})}\right]\\ =&{Mean}_{z\sim q(z|x_{\mathcal{T}},~y_{\mathcal{T}})}\bigg(\sum\log_{i=m+1}^n p(y_i|z,~x_i) - \mathcal{KL}\left(q(z|x_{\mathcal{T}},~y_{\mathcal{T}}),~p(z|x_{\mathcal{C}},~y_{\mathcal{C}})\right)\bigg)\\ \end{aligned} \end{equation}$ 假设网络参数为 $\theta$ , 那么优化方程为： $\theta^* = \arg_{\theta}\min(-ELBO_{\theta})$

3. 神经过程模型 the neural process model

在这里插入图片描述

3.1 Reparameterization

1). Motivation
实现这个模型需要使用到 重参数(reparameterization) 的采样的技巧，这篇知乎文章解释得比较清楚。该技巧是一个针对具有期望结构的网络求梯度时的处理技巧。下面我们按照这篇文章https://spaces.ac.cn/archives/6705的逻辑进行讲解：
假设目标形式为： $\mathcal{L}_\theta=\mathbb{E}_{z\sim p_\theta(z)}\left[f(z)\right]$ 进一步展开，连续形式为 $\mathcal{L}_\theta=\int p_\theta(z)f(z)dz$ , 离散形式下 $\mathcal{L}_\theta=\sum p_\theta(z)f(z)$ 。这样的目标经常出现在VAE, GAN, 以及强化学习中。为了最小化 $\mathcal{L}_\theta$ ，我们需要从分布 $p_\theta(z)$ 中采样出 $z$ ，但是 $p_\theta(z)$ 中具有 $\theta$ 的信息，也就是我们需要优化的参数信息。直接采样的话会直接失去 $\theta$ 的梯度，从而无法更新参数 $\theta$ 。因此，reparameterization 提出的方法是，先把对 $z$ 做个变换，把原来对 $z$ 采样转换为对新的 $\varepsilon$ 变量采样，从而 $\theta$ 可以显示地出现在采样过程中，完成梯度的传递。步骤为：
Step 1: 从无参数分布 $q(\varepsilon)$ 中采样一个 $\varepsilon$ ,
Step 2: 通过变换得到 $z=g_\theta(\varepsilon)$ 得到 $z$ 。
PS: 重参数要求 $f$ 可导

重参数是梯度估计(gradient estimator) 的一个分支, 在梯度估计分支的基本框架如下： $\frac{\partial}{\partial\theta}\int p_\theta(z)f(z)dz=\int p_\theta(z)\frac{f(z)}{p_\theta(z)}\frac{\partial}{\partial\theta}p_{\theta}(z)dz=\mathbb{E}_{z\sim p_\theta(z)}\left[f(z)\frac{\partial}{\partial\theta}\log p_\theta(z)\right]$ 这种方法看着很美好，目前效果一般，估计的方差比较大。由于reinforcement learning中的reward function一般都不可导，因此在求解带期望的目标函数时，会研究梯度估计的问题，在搜索相关研究的时候可以同时输入gradient estimator, reinforcement 关键字。
2). 举个栗子

在变分自编码器中用到的采样分布为 $p_\theta(z)=\mathcal{N}(z; \mu_\theta, \sigma_\theta^2)$ ，如何转换使得网络能够更新 $\theta$ ，让网络能够学习？

通过重参数后的采样过程如下：
$\mathbb{E}_{z\sim\mathcal{N}(z;~\mu_\theta,~\sigma_\theta^2)}[f(z)]=\mathbb{E}_{\varepsilon\sim\mathcal{N}(\varepsilon;~0,~1)}[f(\varepsilon\times\sigma_\theta+\mu_\theta)]$
离散目标函数的重参数目前暂时没有涉及到，先按下不表。