1、介绍
本文介绍一种“参数化密度函数”的估计方法。
设样本服从一个未知的概率密度函数(pdf)
,其中
。
使用参数化函数族
来模拟,其中
为参数向量。通常假设
属于这一函数族,即
。
的任何估计
必须满足如下两个限制条件:
如果对于所有来说(不只是
),
都满足上述两个限制条件,则称模式为“归一化的”,最大似然方法可以用来估计
。如果
仅满足非负的条件而不满足正则化的条件,则称模型为“非归一化的”。设模型
非归一化,分区函数
为
分区函数可以用来将非归一化模型转化为归一化模型:
。本文中,我们提出一种新的估计非归一化模型的方法。主要思想是将
,或者
不再视为
的一个函数,而是模型的附加参数。即
这里。估计
使得
的形状和
的相同,而
的作用是对其进行缩放,这样式(1)就成立了。
2、噪声对比估计(NCE,Noise-Contrastive Estimation)
2.1 通过对比来估计概率密度函数
设“参考(噪声)样本”为,其中
,该样本服从概率密度函数
,样本
可以由比值
来对比描述。若
和
已知的话,我们可以由它们来获取
。
设为
和
的合并,我们给
中的每一个元素
分配一个类别标签
,如果
,则
,如果
,则
。我们用
来模拟
,则条件概率密度函数为
先验概率为,后验概率为
其中。令
。设
则
其中
则似然函数为
2.2 估计器的定义
在1中,我们介绍了,其中
,
用来放缩非归一化模型
,这样式(1)能够成立。
的估计值
是对
的一个估计。估计器
能够使
达到最大,上式也可以写为
注意,当
时,
达到0,当
时,
达到1。
的上界为0,对于所有
,当
和
分别趋近于1和0时,
能达到上界。因此最优估计参数
使得“对于所有
,
尽可能的大;对于所有
,
尽可能的小”。
2.3 估计器的特征
我们刻画当样本量很大,并且比值
固定时的估计器
的特征。根据弱大数定理,当
趋近于无穷大时,
依概率收敛于
,
为
设,我们把“将
视为
的函数”后的目标函数表示为
,即
下面的定理显示,概率密度函数可以通过最大化
来获得,即在拥有无穷多数据的理想条件下,学习一个非参数分类器。
定理1(非参数估计)在
时达到最大。噪声密度函数
一旦确定,
的最大值也就唯一确定,
在
取值大于零的地方也大于零。
目标函数具有在“不限定
的积分值为1”的条件下,其最大值对应的概率密度函数
的积分值自动为1。
大于零的条件告诉我们,在没有对比噪声样本的空间,
无法被估计出来。
通常假定存在,使得
。
定理2(一致性)如果下面的(a)到(b)都满足了,则依概率收敛于
,
。
(a)在
取值大于零的地方也大于零;
(b)
(c)矩阵满秩,其中
上式中条件(b)表示要求在
的取值集合上,依概率收敛于
。
定理3(渐近正态性)为渐近正态分布的,其均值为0,协方差为
,其中
而。
推论1 对于大样本,均方误差
等于
。
2.4 选择噪声
定理2显示,对于给定的训练样本量,当噪声样本量
越来越大时,
也越来越大,
趋近于1。这说明,对于较大的
,协方差矩阵
不依赖于噪声分布
。于是我们有如下定理。
推论2 当时,
不受
选择的影响,
其中,
。
由推论2知,当时,估计误差
对
的依赖度逐渐减小,
的选择也越来越不重要。
推论3 对于任意归一化模型,当
时,噪声对比估计都是渐近“fisher高效的”。
证明:对于归一化模型来说,参数不再需要。在MLE中,
为“得分函数”,矩阵
为费希尔信息矩阵(Fisher information matrix)。由于
,协方差矩阵
是Fisher information matrix的逆矩阵。
对于噪声分布,一个好的选择是与
非常接近。如果
与
差别太大,分类问题会非常简单,系统不会从样本的结构中学习太多东西。如下定理可以做部分解释:
推论4 如果,那么
。
证明:由于,所以
,
,
所以。
对于归一化模型,当时,
,所以
;当
时,
。对于与训练样本分布相近的噪声分布,
不需要太大,MSE即可靠近其理论值。
为获取具有较小估计误差的分布估计,上述讨论可总结噪声分布的选取标准为:
1、具有解析表达式;
2、噪声分布的采样过程较简单;
3、噪声分布在某些方面,例如其方差,与训练样本相同;
4、在计算允许的情况下,噪声样本量越大越好。
一些噪声分布可选的例子:高斯分布,高斯混合分布,ICA分布。若均匀分布的支撑(support)包含训练样本的支撑,这样条件(a)就可以成立了。