统计学习方法笔记---k近邻

基本了解

缺点:

  1. 不适用与数据量大的情况:K近邻需要计算目标实例与所有样本实例的距离,计算量大,耗时长,需要保存所有的训练数据,所需大量的内存空间。
  2. 无法给出给出任何数据的数据结构,不能知晓典型实例样本和平均实例样本具有什么样的特征。

优点:

  1. 最简单的分类算法。
  2. 对异常值不敏感。
  3. 精度高
  4. 无数据输入假定

注意点:

在求解距离的过程中,数值较大的特征,如取值为1000和10的两个特征,取值为1000的特征会对分类结果产生比较大的影响,但这并不意味着该特征在模型中具有较强的影响力,所以需要对数据进行归一化处理。

工作原理

k近邻模型的主要原理:计算目标实例与所有样本实例的距离,对距离进行排序,选择出前K个距离最小的样本实例,通常采用投票表决机制,即选择出类别最多的那一种类别。

本章概要

  1. k近邻是基本且简单的分类与回归方法,既可用于二分类,又可用于多分类。支持线性不可分的数据。K近邻法的基本做法是:对给定的训练实例点和输入实例点,首先确定输入实例点的K个最近邻训练实例点,然后利用这K个训练实例点的类的多数来预测输入实例点的类。

  2. k近邻模型对应于基于训练数据集对特征空间的一个划分。K近邻法中,当训练集、距离度量、K值及分类决策规则确定后,其结果唯一确定。

  3. K邻近法三要素:距离度量、K值的选择和分类决策规则。常用的距离度量是欧氏距离及更一般的 L p L_p Lp距离。K值小时,k近邻模型更复杂,即会发生过拟合;k值大时,k近邻模型更简单,即会发生欠拟合。k值的选择反应了对近似误差(训练集的误差)和估计误差(预测集的误差)之间的权衡,通常首先选择较小的k值,再由交叉验证选择最优的k。常用的分类决策是多数表决,对应于经验风险最小化。

  4. K近邻的误分类率:
    1 k ∑ x i ∈ N k ( x ) I ( y i ≠ c j ) = 1 − 1 k ∑ x i ∈ N k ( x ) I ( y i = c j ) \frac 1 k \sum_{x_i \in N_k (x) } I(y_i \not= c_j) = 1 - \frac 1 k \sum_{x_i \in N_k (x) } I(y_i = c_j) k1xiNk(x)I(

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值