非归一化统计模型的噪声对比估计(NCE,Noise-Contrastive Estimation)(一)

1、介绍

本文介绍一种“参数化密度函数”的估计方法。

设样本X=(\boldsymbol{x}_1,...,\boldsymbol{x}_{T_d})服从一个未知的概率密度函数(pdf)p_d,其中\vec{x}\in \mathbb{R}^np_d使用参数化函数族\{p_m(.;\boldsymbol{\theta})\}来模拟,其中\boldsymbol{\theta}为参数向量。通常假设p_d属于这一函数族,即p_d(.)=p_m(.;\boldsymbol{\theta}^*)\boldsymbol{\theta}^*的任何估计\hat{\boldsymbol{\theta}}必须满足如下两个限制条件:

\int{p_m(\boldsymbol{u};\boldsymbol{\hat{\boldsymbol{\theta}}})} =1,\qquad p_m(.;\hat{\boldsymbol{\theta}})\geqslant 0 \qquad (1)                       

如果对于所有\boldsymbol{\theta}来说(不只是\hat{\boldsymbol{\theta}}),p_m(.;\boldsymbol{\theta})都满足上述两个限制条件,则称模式为“归一化的”,最大似然方法可以用来估计\boldsymbol{\theta}。如果p_m(.;\boldsymbol{\theta})仅满足非负的条件而不满足正则化的条件,则称模型为“非归一化的”。设模型p^0_m(.;\boldsymbol{\alpha})非归一化,分区函数Z(\boldsymbol{\alpha})

      Z(\boldsymbol{\alpha})=\int{p^0_m(\boldsymbol{u};\boldsymbol{\alpha})}d\boldsymbol{u} \qquad(2)

分区函数可以用来将非归一化模型p^0_m(.;\boldsymbol{\alpha})转化为归一化模型:p^0_m(.;\boldsymbol{\alpha})/Z(\boldsymbol{\alpha})。本文中,我们提出一种新的估计非归一化模型的方法。主要思想是将Z,或者c = ln1/Z不再视为\boldsymbol{\alpha}的一个函数,而是模型的附加参数。即

                \ln{p_m(.;\boldsymbol{\theta})}=\ln{p^0_m(.;\boldsymbol{\alpha})}+c

这里\boldsymbol{\theta}=(\boldsymbol{\alpha},c)。估计\hat{\boldsymbol{\theta}}=(\hat{\boldsymbol{\alpha}},\hat{c})使得p^0_m(.;\hat{\boldsymbol{\alpha}})的形状和p_d的相同,而\hat{c}的作用是对其进行缩放,这样式(1)就成立了。


2、噪声对比估计(NCE,Noise-Contrastive Estimation)

2.1 通过对比来估计概率密度函数

设“参考(噪声)样本”为Y=(\boldsymbol{y}_1,...,\boldsymbol{y}_{T_n}),其中\boldsymbol{y}_i\in\mathbb{R}^n,该样本服从概率密度函数p_n,样本X可以由比值p_d/p_n来对比描述。若p_np_d/p_n已知的话,我们可以由它们来获取p_d

U=(\boldsymbol{u}_1,..., \boldsymbol{u}_{T_d+T_n}, )XY的合并,我们给U中的每一个元素\boldsymbol{u}_t分配一个类别标签C_t,如果\boldsymbol{u}_t\in X,则C_t=1,如果\boldsymbol{u}_t\in Y,则C_t=0。我们用p_m(.;\boldsymbol{\theta})来模拟p(.|C=1),则条件概率密度函数为

p(\boldsymbol{u}|C_t=1;\boldsymbol{\theta})=p_m(\boldsymbol{u};\boldsymbol{\theta}), \qquad \qquad p(\boldsymbol{u}|C=0)=p_n(\boldsymbol{\boldsymbol{u}})

先验概率为P(C=1)=T_d/(T_d+T_n), \quad P(C=0)=T_n/(T_d+T_n),后验概率为

       P(C=1|\boldsymbol{u};\boldsymbol{\theta})=\frac{p_m(\boldsymbol{u};\boldsymbol{\theta})}{p_m(\boldsymbol{u};\boldsymbol{\theta})+vp_n(\boldsymbol{u})}, \quad P(C=0|\boldsymbol{u};\boldsymbol{\theta})=\frac{vp_n(\boldsymbol{u})}{p_m(\boldsymbol{u};\boldsymbol{\theta})+vp_n(\boldsymbol{u})} \qquad \qquad (3)

其中v=P(C=0)/P(C=1)=T_n/T_d。令h(\boldsymbol{u};\boldsymbol{\theta})=P(C=1|\boldsymbol{u};\boldsymbol{\theta})。设

          G(\boldsymbol{u};\boldsymbol{\theta})=\ln p_m(\boldsymbol{u};\boldsymbol{\theta})-\ln p_n(\boldsymbol{u}) \qquad \qquad \qquad \qquad \qquad (4)

           h(\boldsymbol{u};\boldsymbol{\theta})=r_v(G(\boldsymbol{u};\boldsymbol{\theta})) \qquad \qquad \qquad \qquad \qquad \qquad \qquad (5)

其中

           r_v(u)=\frac{1}{1+v\exp{(-u)}} \qquad \qquad \qquad \qquad \qquad \qquad \qquad (6)

则似然函数为

          l(\boldsymbol{\theta})=\sum_{t=1}^{T_d+T_n}{C_t\ln{P(C_t=1|\boldsymbol{u}_t;\boldsymbol{\theta})}+(1-C_t)\ln{P(C_t=0|\boldsymbol{u}_t;\boldsymbol{\theta})}} \\ \qquad =\sum_{t=1}^{T_d}{\ln{[h( \boldsymbol{x}_t;\boldsymbol{\theta})]}}+\sum_{t=1}^{T_n}{\ln[{1-h(\boldsymbol{y}_t;\boldsymbol{\theta})}]} \qquad \qquad \qquad (7)

2.2 估计器的定义

在1中,我们介绍了\ln{p_m(.;\boldsymbol{\theta})}=\ln{p^0_m(.;\boldsymbol{\alpha})}+c,其中\boldsymbol{\theta}=(\boldsymbol{\alpha}, c)c用来放缩非归一化模型p^0_m(.;\boldsymbol{\alpha}),这样式(1)能够成立。c的估计值\hat{c}是对\ln{1/Z(\hat{\boldsymbol{\alpha}})}的一个估计。估计器\hat{\boldsymbol{\theta}}_T能够使

J_T(\boldsymbol{\theta})=\frac{1}{T_d}\left \{ \sum_{t=1}^{T_d}{\ln{[h(\boldsymbol{x}_t;\boldsymbol{\theta})]}} + \sum_{t=1}^{T_n}\ln{[1-h(\boldsymbol{y}_t;\boldsymbol{\theta})]} \right \} \qquad \qquad (8)

达到最大,上式也可以写为

J_T(\boldsymbol{\theta})=\frac{1}{T_d}\sum_{t=1}^{T_d}{\ln{[h(\boldsymbol{x}_t;\boldsymbol{\theta})]}} + v\frac{1}{T_n}\sum_{t=1}^{T_n}\ln{[1-h(\boldsymbol{y}_t;\boldsymbol{\theta})]} \qquad \qquad (9)

注意h(.;\boldsymbol{\theta})\in (0,1),当G(.;\boldsymbol{\theta})\rightarrow -\infty时,h(.;\boldsymbol{\theta})达到0,当G(.;\boldsymbol{\theta})\rightarrow \infty时,h(.;\boldsymbol{\theta})达到1。J_T的上界为0,对于所有t,当h(\boldsymbol{x}_t;\boldsymbol{\theta})h(\boldsymbol{y}_t;\boldsymbol{\theta})分别趋近于1和0时,J_T能达到上界。因此最优估计参数\hat{\boldsymbol{\theta}}_T使得“对于所有\boldsymbol{u}_t \in XG(\boldsymbol{u}_t;\hat{\boldsymbol{\theta}}_T)尽可能的大;对于所有\boldsymbol{u}_t \in XG(\boldsymbol{u}_t;\hat{\boldsymbol{\theta}}_T)尽可能的小”。

2.3 估计器的特征

我们刻画当样本量T_d很大,并且比值v固定时的估计器\hat{\boldsymbol{\theta}}_T的特征。根据弱大数定理,当T_d趋近于无穷大时,J_T(\boldsymbol{\theta})依概率收敛于JJ

J(\boldsymbol{\theta})=E\left\{\ln{[h(\boldsymbol{x};\boldsymbol{\theta})]} \right\} + vE\left\{\ln{[1-h(\boldsymbol{y};\boldsymbol{\theta})]} \right\} \qquad \qquad \qquad (10)

f_m(.)=\ln{p_m(.;\boldsymbol{\theta})},我们把“将J视为f_m(.)的函数”后的目标函数表示为\widetilde{J}(f_m),即

\widetilde{J}(f_m)=E\left\{\ln{[ r_v(f_m(\boldsymbol{x}) - \ln{p_n(\boldsymbol{x})}) ]} \right\} + vE\left\{\ln{[1- r_v(f_m(\boldsymbol{y})-\ln{p_n(\boldsymbol{y})})]} \right\} \qquad \qquad \qquad (11)

下面的定理显示,概率密度函数p_d可以通过最大化\widetilde{J}来获得,即在拥有无穷多数据的理想条件下,学习一个非参数分类器。

定理1(非参数估计)\widetilde{J}f_m=\ln{p_d}时达到最大。噪声密度函数p_n一旦确定,\widetilde{J}的最大值也就唯一确定,p_np_d取值大于零的地方也大于零。

目标函数\widetilde{J}具有在“不限定\exp{(f_m)}的积分值为1”的条件下,其最大值对应的概率密度函数\exp{(f_m)}的积分值自动为1。p_n大于零的条件告诉我们,在没有对比噪声样本的空间,p_d无法被估计出来。

通常假定存在\boldsymbol{\theta}^*,使得p_d(.)=p_m(.;\boldsymbol{\theta}^*)

定理2(一致性)如果下面的(a)到(b)都满足了,则\hat{\boldsymbol{\theta}}_T依概率收敛于\boldsymbol{\theta}^*\hat{\boldsymbol{\theta}}_T\overset{P}{\rightarrow} \boldsymbol{\theta}^*

(a)p_np_d取值大于零的地方也大于零;

(b)\sup_{\boldsymbol{\theta}}{|J_T(\boldsymbol{\theta})-J(\boldsymbol{\theta})|}\overset{P}{\rightarrow}0

(c)矩阵\mathbb{I}_v=\int{g(\boldsymbol{u})g(\boldsymbol{u})^TP_v(\boldsymbol{u})p_d(\boldsymbol{u})d\boldsymbol{u}}满秩,其中

\boldsymbol{g}(\boldsymbol{u})=\nabla_{\boldsymbol{\theta}}{\ln{p_m(\boldsymbol{u};\boldsymbol{\theta})}}|_{\boldsymbol{\theta}^*}, \qquad \qquad P_v(\boldsymbol{u})=\frac{vp_n(\boldsymbol{u})}{p_d(\boldsymbol{u})+vp_n(\boldsymbol{u})}

上式中条件(b)表示要求J_T(\boldsymbol{\theta})\boldsymbol{\theta}的取值集合上,依概率收敛于J(\boldsymbol{\theta})

定理3(渐近正态性)\sqrt{T_d}(\hat{\boldsymbol{\theta}}_T-\boldsymbol{\theta}^*)为渐近正态分布的,其均值为0,协方差为\Sigmoid\Sigma,其中

            \Sigma=\mathbb{I}_v^{-1}- \left(1+\frac{1}{v} \right)\mathbb{I}_v^{-1}E(P_v\boldsymbol{g})E(P_v\boldsymbol{g})^T\mathbb{I}_v^{-1}

E(P_v\boldsymbol{g})=\int{P_v(\boldsymbol{u})\boldsymbol{g}(\boldsymbol{u})p_d(\boldsymbol{u})d\boldsymbol{u}}

推论1  对于大样本T_d,均方误差E\left(\left \| \hat{\boldsymbol{\theta}}_T- \boldsymbol{\theta}^*\right \|^2 \right )等于tr(\Sigma)/T_d

             2.4 选择噪声

         定理2显示,对于给定的训练样本量T_d,当噪声样本量T_n越来越大时,v也越来越大,P_v趋近于1。这说明,对于较大的v,协方差矩阵\Sigma不依赖于噪声分布p_n。于是我们有如下定理。

推论2 当v\rightarrow \infty时,\Sigma不受p_n选择的影响,

               \Sigma=\mathbb{I}^{-1}-\mathbb{I}^{-1}E(\boldsymbol{g})E(\boldsymbol{g})^T\mathbb{I}^{-1}

其中E(\boldsymbol{g})=\int{\boldsymbol{g}(\boldsymbol{u})p_d(\boldsymbol{u})d\boldsymbol{u}}, \mathbb{I}=\int{\boldsymbol{g}(\boldsymbol{u})\boldsymbol{g}(\boldsymbol{u})^T}p_d(\boldsymbol{u})d\boldsymbol{u}

    由推论2知,当v\rightarrow \infty时,估计误差\hat{\boldsymbol{\theta}}_T-\boldsymbol{\theta}^*p_n的依赖度逐渐减小,p_n的选择也越来越不重要。

推论3 对于任意归一化模型p_n,当v\rightarrow \infty时,噪声对比估计都是渐近“fisher高效的”。

证明:对于归一化模型来说,参数c不再需要。在MLE中,\boldsymbol{g}为“得分函数”,矩阵\mathbb{I}费希尔信息矩阵(Fisher information matrix)。由于E(\boldsymbol{g})=\boldsymbol{0},协方差矩阵\boldsymbol{\Sigma}是Fisher information matrix的逆矩阵。

对于噪声分布,一个好的选择是p_np_d非常接近。如果p_np_d差别太大,分类问题会非常简单,系统不会从样本的结构中学习太多东西。如下定理可以做部分解释:

推论4 如果p_n=p_d,那么\boldsymbol{\Sigma}=\left(1+\frac{1}{v} \right )\left(\mathbb{I}^{-1}-\mathbb{I}^{-1}E(\boldsymbol{g})E(\boldsymbol{g})^{T}\mathbb{I}^{-1} \right )

证明:由于p_n=p_d,所以P_v(\boldsymbol{u})=\frac{vp_n(\boldsymbol{u})}{p_d(\boldsymbol{u})+vp_n(\boldsymbol{u})}=\frac{v}{1+v}\mathbb{I}_v=\int{\boldsymbol{g}(\boldsymbol{u})\boldsymbol{g}(\boldsymbol{u})^TP_v(\boldsymbol{u})p_d(\boldsymbol{u})d\boldsymbol{u}}=\frac{v}{1+v}\int{\boldsymbol{g}(\boldsymbol{u})\boldsymbol{g}(\boldsymbol{u})^Tp_d(\boldsymbol{u})d\boldsymbol{u}} =\frac{v}{1+v}\mathbb{I}

所以\Sigma=\mathbb{I}_v^{-1}- \left(1+\frac{1}{v} \right)\mathbb{I}_v^{-1}E(P_v\boldsymbol{g})E(P_v\boldsymbol{g})^T\mathbb{I}_v^{-1}=\left(1+\frac{1}{v} \right )\left(\mathbb{I}^{-1}-\mathbb{I}^{-1}E(\boldsymbol{g})E(\boldsymbol{g})^{T}\mathbb{I}^{-1} \right )

对于归一化模型,当v=1时,E(\boldsymbol{g})=\boldsymbol{0},所以\Sigma=2\mathbb{I}^{-1};当v=10时,\Sigma=1.1\mathbb{I}^{-1}。对于与训练样本分布相近的噪声分布,v不需要太大,MSE即可靠近其理论值。

为获取具有较小估计误差的分布估计,上述讨论可总结噪声分布的选取标准为:

1、\ln{p_n}具有解析表达式;

2、噪声分布的采样过程较简单;

3、噪声分布在某些方面,例如其方差,与训练样本相同;

4、在计算允许的情况下,噪声样本量越大越好。

一些噪声分布可选的例子:高斯分布,高斯混合分布,ICA分布。若均匀分布的支撑(support)包含训练样本的支撑,这样条件(a)就可以成立了。

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值