核⽅法进⾏概率密度估计的⼀个困难之处是控制核宽度的参数
h
h
h对于所有的核都是固定的。在⾼数据密度的区域,⼤的h值可能会造成过度平滑,并且破坏了本应从数据中提取出的结构。但是,减⼩
h
h
h的值可能导致数据空间中低密度区域估计的噪声。因此,
h
h
h的最优选择可能依赖于数据空间的位置。这个问题可以通过概率密度的近邻⽅法解决。
回到公式(2.246),与之前固定
V
V
V然后从数据中确定
K
K
K的值不同,我们考虑固定
K
K
K的值,然后使⽤数据来确定合适的
V
V
V值。仍然考虑⼀个以
x
\textbf{x}
x为中⼼的⼩球体,我们允许球体的半径可以⾃由增长,直到它精确地包含
K
K
K个数据点。这种⽅法被称为
K
K
K近邻⽅法。图2.26给出了对于不同参数
K
K
K,使⽤与图2.24和图2.25相同的数据集,
K
K
K近邻⽅法的结果。我们看到
K
K
K的值现在控制了光滑的程度,并且与之前⼀样,
K
K
K的最优选择既不能过⼤也不能过⼩。注意,由
K
K
K近邻⽅法得到的模型不是真实的概率密度模型,因为它在整个空间的积分是发散的。
我们进一步说明概率密度估计的
K
K
K近邻⽅法如何推⼴到分类问题。假设有⼀个数据集,其中
N
k
N_k
Nk个数据点属于类别
C
k
C_k
Ck,数据点的总数为
N
N
N,因此
∑
k
N
k
=
N
\sum_{k} N_k = N
∑kNk=N。画⼀个以
x
\textbf{x}
x为中⼼的球体,这个球体精确地包含
K
K
K个数据点(⽆论属于哪个类别),假设球体体积为V ,并且包含来⾃类别
C
k
C_k
Ck的
K
k
K_k
Kk个数据点,则类条件概率密度估计为
⽆条件概率密度为
⽽类先验为
由贝叶斯公式可得(结合公式2.253、2.254、2.255)
如果我们想最⼩化错误分类的概率,那么我们可以把测试点
x
\textbf{x}
x分配给有着最⼤后验概率的类别,这对应于最⼤的
K
k
K
\frac{K_k}{K}
KKk 。 K = 1的特例被称为最近邻规则。图2.27给出了这些概念的说明。
在图2.28中,我们给出了第⼀章介绍的⽯油流数据集在不同的K值下的
K
K
K近邻算法的结果。正如我们期望的那样,我们看到
K
K
K控制了光滑的程度,即⼩的
K
K
K值会使得每个类别有许多⼩区域,⽽⼤的
K
K
K值会产⽣数量较少⾯积较⼤的区域。
正如到⽬前为⽌讨论的那样,
K
K
K近邻⽅法和核密度估计⽅法都需要存储整个训练数据,如果据集很⼤的话,这会造成很⼤的计算代价。通过建⽴⼀个基于树的搜索结构,使得(近似)近邻可以⾼效地被找到,⽽不必遍历整个数据集,这种计算代价可以被抵消,代价就是需要进⾏⼀次性的额外计算量。尽管这样,这些⾮参数化⽅法仍然有很⼤的局限性。另⼀⽅⾯,我们已经看到,简单的参数化模型⾮常受限,因为它们只能表⽰某⼀种形式的概率分布。因此我们需要寻找⼀种概率密度模型,这种模型需要⾮常灵活,并且它的复杂度可以被控制为与训练数据的规模⽆关。我们在后续章节中将会看到如何找到这种概率密度模型(拭目以待)。
2.5.2 近邻方法(PRML读书笔记)
最新推荐文章于 2022-12-03 21:03:27 发布