统计模型通常基于非归一化概率密度。 也就是说,模型包含了一个未知的难以计算的归一化常数。 在本章中,我们将展示如何使用不同的估计方法来估计这些模型。
21.1 未归一化统计模型
假设我们观察到一个随机向量,它的概率密度函数 (pdf) 由
表示。我们有一个参数化的密度模型
,其中
是m 维向量的参数。我们想根据
来估计参数
,即,我们想用
来近似
以获得估计的参数值
。(为了避免随机变量和积分变量之间的混淆,我们使用
作为积分变量。)
考虑:我们只能计算模型给出的 pdf,除了乘法常数 :
也就是说,我们知道的函数形式是一个解析表达式(或任何可以轻松计算的形式),但我们不知道如何计算
,它由通常难以解析的积分给出:
实际上,对于高维度(任何 n>2),这个积分值是不可能计算的。因此,不能容易地进行最大似然估计。
一种解决方案是使用蒙特卡罗方法逼近归一化常数。在本章中,我们将讨论一种更简单的方法,称为分数匹配(Score Matching)。
21.2 分数匹配估计
在下文中,我们广泛使用对数密度对于数据向量的梯度。 为简单起见,我们将其称为得分函数(score function),它的传统定义是关于假设位置参数的得分函数。 对于模型密度,我们用表示得分函数:
使用分数函数的重点是它不依赖于。事实上,我们显然有
同样,我们用 表示观测数据
的分布的得分函数。 原则上,这可以通过计算 pdf 的非参数估计的对数梯度来估计——但我们将在下面看到,不需要这样的计算。(注意,得分函数是从
到
的映射)
现在,通过最小化模型的得分函数和数据的得分函数
之间的期望平方距离来估计模型。 我们将这个平方距离定义为
因此,的分数匹配估计由下式给出
这种方式的启发是,得分函数可以直接从计算出,我们不需要计算
。