Noise-contrastive estimation简介_noise contrastive estimation-CSDN博客

本文链接：https://blog.csdn.net/icylling/article/details/129019962

Noise-contrastiveestimation(NCE)是通过非线性逻辑回归来区分观测数据和噪声数据，从而估计模型参数的技术。这种方法特别适用于无法直接归一化的模型，因为它可以估计概率密度函数积分不为1的模型的参数。NCE的估计量通过最大化区分数据和噪声的数据的对数似然性得到，并且证明了其一致性。此外，NCE与监督学习中的二分类问题有联系，可以看作是区分数据和噪声的分类任务。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Noise-contrastive estimation（NCE）是一种估计统计模型参数的方法。
基本思想是用非线性逻辑回归（nonlinear logistic regression）区分观测数据和一些人为产生的噪声数据，在区分的时候学习统计模型的参数。
作者证明该方法的估计量是一个一致（收敛）估计量，并分析了渐近方差。
特别地，该方法可以直接用于非归一化模型的参数估计，即概率密度函数积分不为1的模型。归一化常数可以像任何其他参数一样进行估计。

NCE的估计量

用 $X=(\mathbf{x}_1, \ldots, \mathbf{x}_T)$ 表示观测数据，我们用分布 $p_m(\cdot; \theta)$ 去拟合。 $Y=(\mathbf{y}_1, \ldots, \mathbf{y}_T)$ 表示任意的噪声数据，其符合分布 $p_n(\cdot)$ 。估计量 $\hat{\theta}_T$ 被定义为最大化下面目标函数的 $\theta$ ：
$J_T(\theta) = \frac{1}{2T} \sum_t \ln[h(\mathbf x_t;\theta)] + \ln[1-h(\mathbf y_t;\theta)] \tag{1}$ 其中
$h(\mathbf u;\theta) = \frac{1}{1+\exp[-G(\mathbf u; \theta)]}\\ G(\mathbf u; \theta) = \ln p_m(\mathbf u; \theta) - \ln p_n(\mathbf u)$
logistic regression的函数是 $\frac{1}{1+\exp(-x)}$ ，那么 $h(\mathbf u;\theta) = r(G(\mathbf u; \theta))$ 。
公式(1)是区分数据来自X或者噪声Y的logistic regression的log-likelihood。
NCE的思想就是，通过区分数据和噪声，可以学习到数据的分布。

作者证明了估计量 $\hat{\theta}_T$ 的一致性：
在这里插入图片描述

和监督学习的关系

考虑二分类的问题，假设 $\mathbf u \in X,C=1$ 和 $\mathbf u \in Y,C=0$ ，那么条件概率是 $P(\mathbf u | C=1; \theta)=p_m(\mathbf u; \theta) \\ P(\mathbf u | C=0)=p_n(\mathbf u)$ 样本来自两个分布的概率相同，即 $P(C=1)=P(C=0)=\frac{1}{2}$ ，那么后验概率是
$\mathbf u; \theta)=\frac{P(\mathbf u, C=1; \theta)}{P(\mathbf u)} = \frac{P(\mathbf u | C=1; \theta)P(C=1)}{P(\mathbf u | C=1; \theta)P(C=1) + P(\mathbf u | C=0)P(C=0)} = \frac{p_m(\mathbf u; \theta)}{p_m(\mathbf u; \theta) + p_n(\mathbf u)} \\ =h(\mathbf u;\theta)$ $\mathbf u; \theta)=1-P(C=1 | \mathbf u; \theta)=1-h(\mathbf u;\theta)$