2.5.2 近邻方法（PRML读书笔记）

最新推荐文章于 2022-12-03 21:03:27 发布

笑看风云之变换

最新推荐文章于 2022-12-03 21:03:27 发布

阅读量278

点赞数 3

分类专栏：机器学习 PRML读书笔记文章标签：非参数化概率密度建模

本文链接：https://blog.csdn.net/flyhigher1983/article/details/89285918

版权

机器学习同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

PRML读书笔记

12 篇文章 2 订阅

订阅专栏

核⽅法进⾏概率密度估计的⼀个困难之处是控制核宽度的参数 $h$ 对于所有的核都是固定的。在⾼数据密度的区域，⼤的h值可能会造成过度平滑，并且破坏了本应从数据中提取出的结构。但是，减⼩ $h$ 的值可能导致数据空间中低密度区域估计的噪声。因此， $h$ 的最优选择可能依赖于数据空间的位置。这个问题可以通过概率密度的近邻⽅法解决。
回到公式（2.246），与之前固定 $V$ 然后从数据中确定 $K$ 的值不同，我们考虑固定 $K$ 的值，然后使⽤数据来确定合适的 $V$ 值。仍然考虑⼀个以 $\textbf{x}$ 为中⼼的⼩球体，我们允许球体的半径可以⾃由增长，直到它精确地包含 $K$ 个数据点。这种⽅法被称为 $K$ 近邻⽅法。图2.26给出了对于不同参数 $K$ ，使⽤与图2.24和图2.25相同的数据集， $K$ 近邻⽅法的结果。我们看到 $K$ 的值现在控制了光滑的程度，并且与之前⼀样， $K$ 的最优选择既不能过⼤也不能过⼩。注意，由 $K$ 近邻⽅法得到的模型不是真实的概率密度模型，因为它在整个空间的积分是发散的。
在这里插入图片描述
我们进一步说明概率密度估计的 $K$ 近邻⽅法如何推⼴到分类问题。假设有⼀个数据集，其中 $N_k$ 个数据点属于类别 $C_k$ ，数据点的总数为 $N$ ，因此 $\sum_{k} N_k = N$ 。画⼀个以 $\textbf{x}$ 为中⼼的球体，这个球体精确地包含 $K$ 个数据点（⽆论属于哪个类别），假设球体体积为V ，并且包含来⾃类别 $C_k$ 的 $K_k$ 个数据点，则类条件概率密度估计为
在这里插入图片描述
⽆条件概率密度为

⽽类先验为

由贝叶斯公式可得（结合公式2.253、2.254、2.255）

如果我们想最⼩化错误分类的概率，那么我们可以把测试点 $\textbf{x}$ 分配给有着最⼤后验概率的类别，这对应于最⼤的 $\frac{K_k}{K}$ 。 K = 1的特例被称为最近邻规则。图2.27给出了这些概念的说明。
在这里插入图片描述

在图2.28中，我们给出了第⼀章介绍的⽯油流数据集在不同的K值下的 $K$ 近邻算法的结果。正如我们期望的那样，我们看到 $K$ 控制了光滑的程度，即⼩的 $K$ 值会使得每个类别有许多⼩区域，⽽⼤的 $K$ 值会产⽣数量较少⾯积较⼤的区域。
正如到⽬前为⽌讨论的那样， $K$ 近邻⽅法和核密度估计⽅法都需要存储整个训练数据，如果据集很⼤的话，这会造成很⼤的计算代价。通过建⽴⼀个基于树的搜索结构，使得（近似）近邻可以⾼效地被找到，⽽不必遍历整个数据集，这种计算代价可以被抵消，代价就是需要进⾏⼀次性的额外计算量。尽管这样，这些⾮参数化⽅法仍然有很⼤的局限性。另⼀⽅⾯，我们已经看到，简单的参数化模型⾮常受限，因为它们只能表⽰某⼀种形式的概率分布。因此我们需要寻找⼀种概率密度模型，这种模型需要⾮常灵活，并且它的复杂度可以被控制为与训练数据的规模⽆关。我们在后续章节中将会看到如何找到这种概率密度模型（拭目以待）。