统计学习方法-第3章-k近邻法

统计学习方法-第3章-k近邻法

k近邻法

  • 分类与回归方法
  • 多数表决、无显示的学习过程
  • 三个基本要素:k值的选择、距离度量、分类决策规则

模型

k 近邻法的模型对应特征空间的一个划分。

距离度量

特征空间中的两个实例点的距离是两个实例点相似程度的反映。距离越近(数值越小), 相似度越大。

$L_p$ 距离:

  • p = 1,曼哈顿距离

  • p = 2,欧式距离

  • p = ∞

k 值的选择
  • k 值的选择反应了对近似误差与估计误差之间的权衡;

  • k 值减小,整体模型变得复杂,易发生过拟合;

  • k 值增大,整体模型变得简单;

在应用中,k 值一般取一个比较小的数值。通常采用交叉验证法来选取最优的 k 值。

分类决策规则

多数表决规则,对应于经验风险最小化。

损失函数:0-1 损失函数

分类函数:$f: \mathbf { R } ^ { n } \rightarrow \left{ c_1, c_2,\cdots,c_K \right}$

误分类的概率:$P \left( Y \neq f\left( X \right) \right) = 1 - P \left( Y = f\left( X \right) \right)$

给定实例 $x \in \mathcal {X}$,其最近邻的 k 个训练实例点构成集合 $N_k\left( x \right)$。如果涵盖 $N_k\left( x \right)$ 的区域的类别是 $c_j$,那么误分类率

策略

无显示的学习过程

算法

输入:$T = \left{ \left( x _ { 1 } , y _ { 1 } \right) , \left( x _ { 2 } , y _ { 2 } \right) , \cdots , \left( x _ { N } , y _ { N } \right) \right}$,$x _ { i } \in \mathcal { X } = \mathbf { R } ^ { n }$,$y _ { i } \in \mathcal { Y } = { c _ { 1 } , c _ { 2 }, \cdots ,c _ { k } }$,实例特征向量 $x$;

输出:实例所属的类 $y$

步骤:

  1. 根据指定的距离度量,在 $T$ 中查找 $x$ 的最近邻的 $k$ 个点,覆盖这 $k$ 个点的 $x$ 的邻域定义为 $N_k(x)$

  2. 在 $N_k(x)$ 中应用分类决策规则决定 $x$ 的类别 $y$

$I$ 为指示函数。

kd树

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值