前面介绍的概率分布都有具体的函数形式,并且由少量的参数控制。这些参数的值可以由数据集确定,这被称为概率密度建模的参数化⽅法。参数化⽅法的⼀个重要局限性是选择的概率密度可能对于⽣成数据来说,是⼀个很差的模型。例如,如果⽣成数据的过程是多峰的,那么这种分布不可能被⾼斯分布描述,因为它是单峰的。
⾸先考虑密度估计的直⽅图⽅法。我们集中于⼀元连续变量
x
x
x的情形,标准的直⽅图简单地把
x
x
x划分成宽度为
Δ
i
\Delta_i
Δi的箱⼦,然后对落在第
i
i
i个箱⼦中的
x
x
x的观测数量
n
i
n_i
ni进⾏计数,每个箱⼦的概率记为
很容易看出
∫
p
(
x
)
d
x
=
1
\int{p(x) dx} = 1
∫p(x)dx=1。这给出了概率密度
p
(
x
)
p(x)
p(x)的⼀个模型,这个概率密度在每个箱⼦的宽度内是常数,并且通常箱⼦的宽度选成相同的,即
Δ
i
=
Δ
\Delta_i=\Delta
Δi=Δ。
图2.24给出了⼀个直⽅图概率密度估计的例⼦。这⾥数据满⾜绿⾊曲线的概率分布,它由两个⾼斯分布混合⽽成。同时给出的还有三个直⽅图密度估计的例⼦,分布对应对于箱⼦宽度
Δ
\Delta
Δ的三种不同的选择。我们看到,
- 当 Δ \Delta Δ⾮常⼩的时候(最上⽅的图),最终的概率密度模型有很多尖刺,有很多结构没有出现在⽣成数据的概率分布中。
- 相反,如果 Δ \Delta Δ过⼤(最下⽅的图),那么最终的概率模型会过于平滑,结果⽆法描述绿⾊曲线的双峰性质。
- 当 Δ \Delta Δ取⼀个中等⼤⼩的值时(中间的图),可以得到最好的结果。
在实际应⽤中,直⽅图⽅法对于快速地将⼀维或者⼆维的数据可视化很有⽤,但是并不适⽤于⼤多数概率密度估计的应⽤,这是因为:
- ⼀个明显的问题是估计的概率密度具有不连续性,这是由于箱⼦的边缘造成的。
- 另⼀个主要的局限性是维数放⼤。如果是 D D D维空间,要把每⼀维的变量都划分到 M M M个箱⼦中,那么箱⼦的总数为 M D M^D MD。这种对于 D D D的指数放⼤是维度灾难的⼀个例⼦。在⾼维空间中,如果想对于局部概率密度进⾏有意义的估计,那么需要的数据量是不可接受的。
但是,概率密度估计的直⽅图⽅法确实告诉了我们两个重要的事情。
- 第⼀,为了估计在某个特定位置的概率密度,我们应该考虑位于那个点的某个邻域内的数据点。对于直⽅图,这种邻域的性质由箱⼦定义,并且有⼀个⾃然的“平滑”参数描述局部区域的空间扩展,即这⾥的箱⼦宽度。
- 第⼆,为了获得好的结果,平滑参数的值既不能太⼤也不能太⼩。
有了这些认识,下面的两小节讨论两个⼴泛使⽤的密度估计的⾮参数化⽅法,核估计以及近邻估计。与简单的直⽅图⽅法相⽐,这两种⽅法对于维度的放⼤有着更好的适应性。