2.5.2 近邻方法(PRML读书笔记)

  核⽅法进⾏概率密度估计的⼀个困难之处是控制核宽度的参数 h h h对于所有的核都是固定的。在⾼数据密度的区域,⼤的h值可能会造成过度平滑,并且破坏了本应从数据中提取出的结构。但是,减⼩ h h h的值可能导致数据空间中低密度区域估计的噪声。因此, h h h的最优选择可能依赖于数据空间的位置。这个问题可以通过概率密度的近邻⽅法解决。
  回到公式(2.246),与之前固定 V V V然后从数据中确定 K K K的值不同,我们考虑固定 K K K的值,然后使⽤数据来确定合适的 V V V值。仍然考虑⼀个以 x \textbf{x} x为中⼼的⼩球体,我们允许球体的半径可以⾃由增长,直到它精确地包含 K K K个数据点。这种⽅法被称为 K K K近邻⽅法。图2.26给出了对于不同参数 K K K,使⽤与图2.24和图2.25相同的数据集, K K K近邻⽅法的结果。我们看到 K K K的值现在控制了光滑的程度,并且与之前⼀样, K K K的最优选择既不能过⼤也不能过⼩。注意,由 K K K近邻⽅法得到的模型不是真实的概率密度模型,因为它在整个空间的积分是发散的。
在这里插入图片描述
  我们进一步说明概率密度估计的 K K K近邻⽅法如何推⼴到分类问题。假设有⼀个数据集,其中 N k N_k Nk个数据点属于类别 C k C_k Ck,数据点的总数为 N N N,因此 ∑ k N k = N \sum_{k} N_k = N kNk=N。画⼀个以 x \textbf{x} x为中⼼的球体,这个球体精确地包含 K K K个数据点(⽆论属于哪个类别),假设球体体积为V ,并且包含来⾃类别 C k C_k Ck K k K_k Kk个数据点,则类条件概率密度估计为
在这里插入图片描述
⽆条件概率密度为
在这里插入图片描述
⽽类先验为
在这里插入图片描述
由贝叶斯公式可得(结合公式2.253、2.254、2.255)
在这里插入图片描述
  如果我们想最⼩化错误分类的概率,那么我们可以把测试点 x \textbf{x} x分配给有着最⼤后验概率的类别,这对应于最⼤的 K k K \frac{K_k}{K} KKk 。 K = 1的特例被称为最近邻规则。图2.27给出了这些概念的说明。
在这里插入图片描述
在这里插入图片描述
  在图2.28中,我们给出了第⼀章介绍的⽯油流数据集在不同的K值下的 K K K近邻算法的结果。正如我们期望的那样,我们看到 K K K控制了光滑的程度,即⼩的 K K K值会使得每个类别有许多⼩区域,⽽⼤的 K K K值会产⽣数量较少⾯积较⼤的区域。
  正如到⽬前为⽌讨论的那样, K K K近邻⽅法和核密度估计⽅法都需要存储整个训练数据,如果据集很⼤的话,这会造成很⼤的计算代价。通过建⽴⼀个基于树的搜索结构,使得(近似)近邻可以⾼效地被找到,⽽不必遍历整个数据集,这种计算代价可以被抵消,代价就是需要进⾏⼀次性的额外计算量。尽管这样,这些⾮参数化⽅法仍然有很⼤的局限性。另⼀⽅⾯,我们已经看到,简单的参数化模型⾮常受限,因为它们只能表⽰某⼀种形式的概率分布。因此我们需要寻找⼀种概率密度模型,这种模型需要⾮常灵活,并且它的复杂度可以被控制为与训练数据的规模⽆关。我们在后续章节中将会看到如何找到这种概率密度模型(拭目以待)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值