k-NN 简单总结

k-NN(k-nearest neighbor)(k近邻法):
1、适用场景:可用于分类(可用于多分类)和回归。
以下讨论分类问题。
2、综述:
不具有显式的学习过程。
利用训练数据集对特征向量空间进行划分,并作为其分类的模型。
判别模型
3、**K近邻法的三个基本要素:**k值的选择,距离度量,分类决策规则。
4、基本思想:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最近邻的k个实例,这k个实例的多数属于某个类,就把该输入实例分为这个类。
5、具体过程:
输入:训练集;实例x
输出:类别y
找邻域
根据分类决策规则决定类别。
6、距离度量:距离是相似程度的反映。k近邻模型一般使用的是欧氏距离,其他距离:
L_p距离:欧氏距离,曼哈顿距离。
由不同的距离度量所确定的最近邻点是不一样的。
7、k值的选择:
较小的k值:近似误差小,估计误差大,模型复杂,容易发生过拟合。
较大的k值:近似误差增大,估计误差变小,模型变得简单。
k=N是不可取的,忽略了训练实例中的大量有用信息。
应用中,一般会选择较小的k,通常采用交叉验证法来选取最优k值。
8、近似误差:可理解为训练误差,即与训练集的拟合程度。
估计误差:是对误差大小的估计。与函数集的大小成反比,即函数集大时,包含正解的概率越大,估计误差越小,反之。
9、分类决策规则:往往用多数表决。多数表决规则等价于经验风险最小化。
10、k近邻法的实现: kd树。
kd树:一种对k维空间中的实例点进行存储以便对其进行快速检索的树形存储结构,kd树是二叉树。
kd树的构造
kd树的搜索:平均时间复杂度O(log N),N是训练实例数。kd树更适用于实例数远大于空间维数时的k近邻搜索,当空间维数接近实例数时,效率会迅速下降,几乎接近线性扫描。

参考:李航《统计学习方法》

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值