机器学习--day6--KNN

K近邻算法简介

K近邻(K-Nearest Neighbor,KNN) 算法是一个典型的监督学习算法核心思想是:未标记样本的类别由距离其最近的K个邻居通过投票来决定。具体而言,假设存在一个已经标记好的数据集。给定一个未标记的数据样本,我们的任务是:预测出该数据样本所属的类别。KNN的原理是: 计算待标记样本和数据集中每个样本的距离取距离最近的K个样本待标记的样本所属类别由这K个距离最近的样本投票产生。

K近邻算法

k-近邻算法,其工作机制就是给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本,然后基于这k个“邻居”的信息来进行预测。

k近邻法会涉及到三个问题(三要素):距离度量、k 值的选择、分类决策规则

距离度量

特征空间的两个实例点的距离度量是两个实例点相似程度的反映。距离小,那么相似度大;距离大,那么相似度小。k-近邻模型的特征空间一般是n维实数向量空间R^n 。使用的距离是欧式距离,但也可以是其他距离,如更一般的L_p距离(L_p distance)或Minkowski距离。

欧氏距离(Euclidean distance) 是最常用的距离计算公式,衡量的是多维空间中各个点之间的绝对距离。欧在二维和三维空间中的欧氏距离就是两点之间的实际距离。

曼哈顿距离(Manhattan distance)从一个十字路口开车到另外一个十字路口实际驾驶距离就是这个“曼哈顿距离”。无论哪条路线,距离一样。

k值的选择

一般是靠经验,默认为5个

k值较大,会使模型变得简单,容易欠拟合

k值较小,会使模型变得复杂,容易过拟合

分类决策

未知实例的k个近邻的多数实例类决定未知实例类,经验风险最小化

 

算法流程如下:

1.计算测试对象到训练集中每个对象的距离

2.按照距离的远近排序

3.选取与当前测试对象最近的k的训练对象,作为该测试对象的邻居

4.统计这k个邻居的类别频次

5.k个邻居里频次最高的类别,即为测试对象的类别

 

KNN算法的优点

1.即可用于回归也可用于分类

2.理论成熟,思想简单

3.重新训练代价低

4.对异常值不敏感

缺点

大训练集内寻找最近邻花费的时间大。

对内存要求较高,该算法存储了所有的训练数据

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值