统计学习方法(李航)--监督学习--k近邻法

一、k近邻算法

  1. 定位:k近邻法, 英文为k-nearest neighbor, 简称k-NN,是一种基本分类回归算法。
  2. 原理:k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。
  3. 基本要素:距离度量k值的选择分类决策规则
  4. 由来:1968年由CoverHart提出。
  5. 算法
    在这里插入图片描述
    在这里插入图片描述

二、k近邻模型

(一)模型==>距离度量+k值的选择+分类决策规则

特征空间中,对每个训练实例点xi,距离该点比其他点更近的所有点组成一个区域,叫做单元cell。每个训练实例点拥有一个单元,所有训练实例点的单元构成对特征空间的一个划分。最近邻法将实例xi的类yi作为其单元中所有点的类标记class label。二维特征空间划分图如下:
在这里插入图片描述

(二)距离度量

在这里插入图片描述
在这里插入图片描述

(三)k值的选择

  • k值小,整体模型变得复杂,容易产生过拟合
  • k值大,整体模型变得简单,容易产生欠拟合
  • 在应用中,k值一般取一个比较小的值。通常采用交叉验证法来选取最优的k值。

(四)分类决策规则

在这里插入图片描述
在这里插入图片描述

三、k近邻法的实现:kd树

  • k近邻法主要考虑的问题是:如何对训练数据进行快速k近邻搜索
  • 实现方法(有很多,但书中只提及了两种)
    • 线性扫描 linear scan(但当训练集很大时,计算非常耗时,不可行)
    • kd树 kd tree (提高k近邻搜索的效率,减少计算距离的次数)

(一)构造kd树

  1. 定义

    kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构
    kd树是二叉树,表示对k维空间的一个划分
    kd树的每个结点对应于一个k维超矩形区域

  2. 构造方法
    • 构造根结点,使根结点对应于k维空间中包含所有实例点的超矩形区域
    • 通过下面的递归方法,不断地对k维空间进行切分,生成子结点
    • 递归方法如下:
      在这里插入图片描述
  3. 算法
    在这里插入图片描述
  4. 例题
    在这里插入图片描述
    在这里插入图片描述

(二)搜索kd树

  1. 算法
    在这里插入图片描述
  2. 例题
    在这里插入图片描述
    在这里插入图片描述

四、书中关于k近邻法的参考文献

在这里插入图片描述

五、关于《统计学习方法》的作者

李航

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值