非归一化统计模型的噪声对比估计（NCE，Noise-Contrastive Estimation）（一）

最新推荐文章于 2023-07-29 11:40:47 发布

shanghai_in_summer

最新推荐文章于 2023-07-29 11:40:47 发布

阅读量8.2k

点赞数 3

分类专栏： Statistics

Statistics 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

1、介绍

本文介绍一种“参数化密度函数”的估计方法。

设样本 $X=(\boldsymbol{x}_1,...,\boldsymbol{x}_{T_d})$ 服从一个未知的概率密度函数（pdf） p_d ，其中 $\vec{x}\in \mathbb{R}^n$ 。 p_d 使用参数化函数族 $\{p_m(.;\boldsymbol{\theta})\}$ 来模拟，其中 $\boldsymbol{\theta}$ 为参数向量。通常假设 p_d 属于这一函数族，即 $p_d(.)=p_m(.;\boldsymbol{\theta}^*)$ 。 $\boldsymbol{\theta}^*$ 的任何估计 $\hat{\boldsymbol{\theta}}$ 必须满足如下两个限制条件：

$\int{p_m(\boldsymbol{u};\boldsymbol{\hat{\boldsymbol{\theta}}})} =1,\qquad p_m(.;\hat{\boldsymbol{\theta}})\geqslant 0 \qquad (1)$

如果对于所有 $\boldsymbol{\theta}$ 来说（不只是 $\hat{\boldsymbol{\theta}}$ ）， $p_m(.;\boldsymbol{\theta})$ 都满足上述两个限制条件，则称模式为“归一化的”，最大似然方法可以用来估计 $\boldsymbol{\theta}$ 。如果 $p_m(.;\boldsymbol{\theta})$ 仅满足非负的条件而不满足正则化的条件，则称模型为“非归一化的”。设模型 $p^0_m(.;\boldsymbol{\alpha})$ 非归一化，分区函数 $Z(\boldsymbol{\alpha})$ 为

$Z(\boldsymbol{\alpha})=\int{p^0_m(\boldsymbol{u};\boldsymbol{\alpha})}d\boldsymbol{u} \qquad(2)$

分区函数可以用来将非归一化模型 $p^0_m(.;\boldsymbol{\alpha})$ 转化为归一化模型： $p^0_m(.;\boldsymbol{\alpha})/Z(\boldsymbol{\alpha})$ 。本文中，我们提出一种新的估计非归一化模型的方法。主要思想是将，或者 c = ln1/Z 不再视为 $\boldsymbol{\alpha}$ 的一个函数，而是模型的附加参数。即

$\ln{p_m(.;\boldsymbol{\theta})}=\ln{p^0_m(.;\boldsymbol{\alpha})}+c$

这里 $\boldsymbol{\theta}=(\boldsymbol{\alpha},c)$ 。估计 $\hat{\boldsymbol{\theta}}=(\hat{\boldsymbol{\alpha}},\hat{c})$ 使得 $p^0_m(.;\hat{\boldsymbol{\alpha}})$ 的形状和 p_d 的相同，而 $\hat{c}$ 的作用是对其进行缩放，这样式（1）就成立了。

2、噪声对比估计（NCE，Noise-Contrastive Estimation）

2.1 通过对比来估计概率密度函数

设“参考（噪声）样本”为 $Y=(\boldsymbol{y}_1,...,\boldsymbol{y}_{T_n})$ ，其中 $\boldsymbol{y}_i\in\mathbb{R}^n$ ，该样本服从概率密度函数 p_n ，样本可以由比值 p_d/p_n 来对比描述。若 p_n 和 p_d/p_n 已知的话，我们可以由它们来获取 p_d 。

设 $U=(\boldsymbol{u}_1,..., \boldsymbol{u}_{T_d+T_n}, )$ 为和的合并，我们给中的每一个元素 $\boldsymbol{u}_t$ 分配一个类别标签 C_t ，如果 $\boldsymbol{u}_t\in X$ ，则 C_t=1 ，如果 $\boldsymbol{u}_t\in Y$ ，则 C_t=0 。我们用 $p_m(.;\boldsymbol{\theta})$ 来模拟 p(.|C=1) ，则条件概率密度函数为

$p(\boldsymbol{u}|C_t=1;\boldsymbol{\theta})=p_m(\boldsymbol{u};\boldsymbol{\theta}), \qquad \qquad p(\boldsymbol{u}|C=0)=p_n(\boldsymbol{\boldsymbol{u}})$

先验概率为 $P(C=1)=T_d/(T_d+T_n), \quad P(C=0)=T_n/(T_d+T_n)$ ，后验概率为

$P(C=1|\boldsymbol{u};\boldsymbol{\theta})=\frac{p_m(\boldsymbol{u};\boldsymbol{\theta})}{p_m(\boldsymbol{u};\boldsymbol{\theta})+vp_n(\boldsymbol{u})}, \quad P(C=0|\boldsymbol{u};\boldsymbol{\theta})=\frac{vp_n(\boldsymbol{u})}{p_m(\boldsymbol{u};\boldsymbol{\theta})+vp_n(\boldsymbol{u})} \qquad \qquad (3)$

其中 v=P(C=0)/P(C=1)=T_n/T_d 。令 $h(\boldsymbol{u};\boldsymbol{\theta})=P(C=1|\boldsymbol{u};\boldsymbol{\theta})$ 。设

$G(\boldsymbol{u};\boldsymbol{\theta})=\ln p_m(\boldsymbol{u};\boldsymbol{\theta})-\ln p_n(\boldsymbol{u}) \qquad \qquad \qquad \qquad \qquad (4)$

则

$h(\boldsymbol{u};\boldsymbol{\theta})=r_v(G(\boldsymbol{u};\boldsymbol{\theta})) \qquad \qquad \qquad \qquad \qquad \qquad \qquad (5)$

其中

$r_v(u)=\frac{1}{1+v\exp{(-u)}} \qquad \qquad \qquad \qquad \qquad \qquad \qquad (6)$

则似然函数为

$l(\boldsymbol{\theta})=\sum_{t=1}^{T_d+T_n}{C_t\ln{P(C_t=1|\boldsymbol{u}_t;\boldsymbol{\theta})}+(1-C_t)\ln{P(C_t=0|\boldsymbol{u}_t;\boldsymbol{\theta})}} \\ \qquad =\sum_{t=1}^{T_d}{\ln{[h( \boldsymbol{x}_t;\boldsymbol{\theta})]}}+\sum_{t=1}^{T_n}{\ln[{1-h(\boldsymbol{y}_t;\boldsymbol{\theta})}]} \qquad \qquad \qquad (7)$

2.2 估计器的定义

在1中，我们介绍了 $\ln{p_m(.;\boldsymbol{\theta})}=\ln{p^0_m(.;\boldsymbol{\alpha})}+c$ ，其中 $\boldsymbol{\theta}=(\boldsymbol{\alpha}, c)$ ，用来放缩非归一化模型 $p^0_m(.;\boldsymbol{\alpha})$ ，这样式（1）能够成立。的估计值 $\hat{c}$ 是对 $\ln{1/Z(\hat{\boldsymbol{\alpha}})}$ 的一个估计。估计器 $\hat{\boldsymbol{\theta}}_T$ 能够使

$J_T(\boldsymbol{\theta})=\frac{1}{T_d}\left \{ \sum_{t=1}^{T_d}{\ln{[h(\boldsymbol{x}_t;\boldsymbol{\theta})]}} + \sum_{t=1}^{T_n}\ln{[1-h(\boldsymbol{y}_t;\boldsymbol{\theta})]} \right \} \qquad \qquad (8)$

达到最大，上式也可以写为

$J_T(\boldsymbol{\theta})=\frac{1}{T_d}\sum_{t=1}^{T_d}{\ln{[h(\boldsymbol{x}_t;\boldsymbol{\theta})]}} + v\frac{1}{T_n}\sum_{t=1}^{T_n}\ln{[1-h(\boldsymbol{y}_t;\boldsymbol{\theta})]} \qquad \qquad (9)$

注意 $h(.;\boldsymbol{\theta})\in (0,1)$ ，当 $G(.;\boldsymbol{\theta})\rightarrow -\infty$ 时， $h(.;\boldsymbol{\theta})$ 达到0，当 $G(.;\boldsymbol{\theta})\rightarrow \infty$ 时， $h(.;\boldsymbol{\theta})$ 达到1。 J_T 的上界为0，对于所有，当 $h(\boldsymbol{x}_t;\boldsymbol{\theta})$ 和 $h(\boldsymbol{y}_t;\boldsymbol{\theta})$ 分别趋近于1和0时， J_T 能达到上界。因此最优估计参数 $\hat{\boldsymbol{\theta}}_T$ 使得“对于所有 $\boldsymbol{u}_t \in X$ ， $G(\boldsymbol{u}_t;\hat{\boldsymbol{\theta}}_T)$ 尽可能的大；对于所有 $\boldsymbol{u}_t \in X$ ， $G(\boldsymbol{u}_t;\hat{\boldsymbol{\theta}}_T)$ 尽可能的小”。

2.3 估计器的特征

我们刻画当样本量 T_d 很大，并且比值固定时的估计器 $\hat{\boldsymbol{\theta}}_T$ 的特征。根据弱大数定理，当 T_d 趋近于无穷大时， $J_T(\boldsymbol{\theta})$ 依概率收敛于，为

$J(\boldsymbol{\theta})=E\left\{\ln{[h(\boldsymbol{x};\boldsymbol{\theta})]} \right\} + vE\left\{\ln{[1-h(\boldsymbol{y};\boldsymbol{\theta})]} \right\} \qquad \qquad \qquad (10)$

设 $f_m(.)=\ln{p_m(.;\boldsymbol{\theta})}$ ，我们把“将视为 f_m(.) 的函数”后的目标函数表示为 $\widetilde{J}(f_m)$ ，即

$\widetilde{J}(f_m)=E\left\{\ln{[ r_v(f_m(\boldsymbol{x}) - \ln{p_n(\boldsymbol{x})}) ]} \right\} + vE\left\{\ln{[1- r_v(f_m(\boldsymbol{y})-\ln{p_n(\boldsymbol{y})})]} \right\} \qquad \qquad \qquad (11)$

下面的定理显示，概率密度函数 p_d 可以通过最大化 $\widetilde{J}$ 来获得，即在拥有无穷多数据的理想条件下，学习一个非参数分类器。

定理1（非参数估计） $\widetilde{J}$ 在 $f_m=\ln{p_d}$ 时达到最大。噪声密度函数一旦确定， $\widetilde{J}$ 的最大值也就唯一确定，在取值大于零的地方也大于零。

目标函数 $\widetilde{J}$ 具有在“不限定 $\exp{(f_m)}$ 的积分值为1”的条件下，其最大值对应的概率密度函数 $\exp{(f_m)}$ 的积分值自动为1。 p_n 大于零的条件告诉我们，在没有对比噪声样本的空间， p_d 无法被估计出来。

通常假定存在 $\boldsymbol{\theta}^*$ ，使得 $p_d(.)=p_m(.;\boldsymbol{\theta}^*)$ 。

定理2（一致性）如果下面的（a）到（b）都满足了，则 $\hat{\boldsymbol{\theta}}_T$ 依概率收敛于 $\boldsymbol{\theta}^*$ ， $\hat{\boldsymbol{\theta}}_T\overset{P}{\rightarrow} \boldsymbol{\theta}^*$ 。

（a）在取值大于零的地方也大于零；

（b） $\sup_{\boldsymbol{\theta}}{|J_T(\boldsymbol{\theta})-J(\boldsymbol{\theta})|}\overset{P}{\rightarrow}0$

（c）矩阵 $\mathbb{I}_v=\int{g(\boldsymbol{u})g(\boldsymbol{u})^TP_v(\boldsymbol{u})p_d(\boldsymbol{u})d\boldsymbol{u}}$ 满秩，其中

$\boldsymbol{g}(\boldsymbol{u})=\nabla_{\boldsymbol{\theta}}{\ln{p_m(\boldsymbol{u};\boldsymbol{\theta})}}|_{\boldsymbol{\theta}^*}, \qquad \qquad P_v(\boldsymbol{u})=\frac{vp_n(\boldsymbol{u})}{p_d(\boldsymbol{u})+vp_n(\boldsymbol{u})}$

上式中条件（b）表示要求 $J_T(\boldsymbol{\theta})$ 在 $\boldsymbol{\theta}$ 的取值集合上，依概率收敛于 $J(\boldsymbol{\theta})$ 。

定理3（渐近正态性） $\sqrt{T_d}(\hat{\boldsymbol{\theta}}_T-\boldsymbol{\theta}^*)$ 为渐近正态分布的，其均值为0，协方差为 $\Sigmoid$ $\Sigma$ ，其中

$\Sigma=\mathbb{I}_v^{-1}- \left(1+\frac{1}{v} \right)\mathbb{I}_v^{-1}E(P_v\boldsymbol{g})E(P_v\boldsymbol{g})^T\mathbb{I}_v^{-1}$

而 $E(P_v\boldsymbol{g})=\int{P_v(\boldsymbol{u})\boldsymbol{g}(\boldsymbol{u})p_d(\boldsymbol{u})d\boldsymbol{u}}$ 。

推论1 对于大样本 T_d ，均方误差 $E\left(\left \| \hat{\boldsymbol{\theta}}_T- \boldsymbol{\theta}^*\right \|^2 \right )$ 等于 $tr(\Sigma)/T_d$ 。

2.4 选择噪声

定理2显示，对于给定的训练样本量 T_d ，当噪声样本量 T_n 越来越大时，也越来越大， P_v 趋近于1。这说明，对于较大的，协方差矩阵 $\Sigma$ 不依赖于噪声分布 p_n 。于是我们有如下定理。

推论2 当 $v\rightarrow \infty$ 时， $\Sigma$ 不受选择的影响，

$\Sigma=\mathbb{I}^{-1}-\mathbb{I}^{-1}E(\boldsymbol{g})E(\boldsymbol{g})^T\mathbb{I}^{-1}$

其中 $E(\boldsymbol{g})=\int{\boldsymbol{g}(\boldsymbol{u})p_d(\boldsymbol{u})d\boldsymbol{u}}$ ， $\mathbb{I}=\int{\boldsymbol{g}(\boldsymbol{u})\boldsymbol{g}(\boldsymbol{u})^T}p_d(\boldsymbol{u})d\boldsymbol{u}$ 。

由推论2知，当 $v\rightarrow \infty$ 时，估计误差 $\hat{\boldsymbol{\theta}}_T-\boldsymbol{\theta}^*$ 对 p_n 的依赖度逐渐减小， p_n 的选择也越来越不重要。

推论3 对于任意归一化模型，当 $v\rightarrow \infty$ 时，噪声对比估计都是渐近“fisher高效的”。

证明：对于归一化模型来说，参数不再需要。在MLE中， $\boldsymbol{g}$ 为“得分函数”，矩阵 $\mathbb{I}$ 为费希尔信息矩阵（Fisher information matrix）。由于 $E(\boldsymbol{g})=\boldsymbol{0}$ ，协方差矩阵 $\boldsymbol{\Sigma}$ 是Fisher information matrix的逆矩阵。

对于噪声分布，一个好的选择是 p_n 与 p_d 非常接近。如果 p_n 与 p_d 差别太大，分类问题会非常简单，系统不会从样本的结构中学习太多东西。如下定理可以做部分解释：

推论4 如果，那么 $\boldsymbol{\Sigma}=\left(1+\frac{1}{v} \right )\left(\mathbb{I}^{-1}-\mathbb{I}^{-1}E(\boldsymbol{g})E(\boldsymbol{g})^{T}\mathbb{I}^{-1} \right )$ 。

证明：由于，所以 $P_v(\boldsymbol{u})=\frac{vp_n(\boldsymbol{u})}{p_d(\boldsymbol{u})+vp_n(\boldsymbol{u})}=\frac{v}{1+v}$ ， $\mathbb{I}_v=\int{\boldsymbol{g}(\boldsymbol{u})\boldsymbol{g}(\boldsymbol{u})^TP_v(\boldsymbol{u})p_d(\boldsymbol{u})d\boldsymbol{u}}=\frac{v}{1+v}\int{\boldsymbol{g}(\boldsymbol{u})\boldsymbol{g}(\boldsymbol{u})^Tp_d(\boldsymbol{u})d\boldsymbol{u}} =\frac{v}{1+v}\mathbb{I}$ ，

所以 $\Sigma=\mathbb{I}_v^{-1}- \left(1+\frac{1}{v} \right)\mathbb{I}_v^{-1}E(P_v\boldsymbol{g})E(P_v\boldsymbol{g})^T\mathbb{I}_v^{-1}=\left(1+\frac{1}{v} \right )\left(\mathbb{I}^{-1}-\mathbb{I}^{-1}E(\boldsymbol{g})E(\boldsymbol{g})^{T}\mathbb{I}^{-1} \right )$ 。

对于归一化模型，当时， $E(\boldsymbol{g})=\boldsymbol{0}$ ，所以 $\Sigma=2\mathbb{I}^{-1}$ ；当时， $\Sigma=1.1\mathbb{I}^{-1}$ 。对于与训练样本分布相近的噪声分布，不需要太大，MSE即可靠近其理论值。

为获取具有较小估计误差的分布估计，上述讨论可总结噪声分布的选取标准为：

1、 $\ln{p_n}$ 具有解析表达式；

2、噪声分布的采样过程较简单；

3、噪声分布在某些方面，例如其方差，与训练样本相同；

4、在计算允许的情况下，噪声样本量越大越好。

一些噪声分布可选的例子：高斯分布，高斯混合分布，ICA分布。若均匀分布的支撑（support）包含训练样本的支撑，这样条件（a）就可以成立了。

shanghai_in_summer

关注

3
点赞
踩
14

收藏

觉得还不错? 一键收藏
4
评论
非归一化统计模型的噪声对比估计（NCE，Noise-Contrastive Estimation）（一）

1、介绍本文介绍一种“参数化密度函数”的估计方法。设样本服从一个未知的概率密度函数（pdf），其中。使用参数化函数族来模拟，其中为参数向量。通常假设属于这一函数族，即。的任何估计必须满足如下两个限制条件：如果对于所有来说（不只是），都满足上述两个限制条件，则称模式为“归一化的”，最大似然方法可以用来估计。如果仅满足非负的条件而不满足正则...
复制链接

扫一扫