机器学习之KNN(一)K近邻算法sklearn实现详解

本文详细介绍了K近邻(KNN)算法,包括其分类和回归的应用,以及在机器学习中的核心思想。重点讲解了kNN的三个基本要素:距离度量、k值选择和分类决策规则,并通过sklearn库展示了鸢尾花数据集的代码实现。
摘要由CSDN通过智能技术生成

K近邻算法

  • 做分类时,顾名思义,该算法的大致思想是把要预测的样本点丢到训练样本空间中,选取距离该样本最近的k个训练数据,然后根据投票的方式看哪个类别多,就觉得该样本是哪类数据。
  • 做回归时,思路差不多,选取k个相近的训练数据,预测值就是他们的y标签的平均值。
  • 邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。(百度百科)
  • kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时,只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,kNN方法较其他方法更为适合。(百度百科)

KNN的三个基本要素

kNN模型的三个基本要素:(1)距离度量、(2)k值的选择、(3)分类决策规则。
(1)距离度量

在引例中所画的坐标系,可以叫做特征空间。特征空间中两个实例点的距离是两个实例点相似程度的反应(距离越近,相似度越高)。kNN模型使用的距离一般是欧氏距离,但也可以是其他距离如:曼哈顿距离

(2)k值的选择

k值的选择会对kNN模型的结果产生重大影响。选择较大的k值,相当于用较大邻域中的训练实例进行预测,模型会考虑过多的邻近点实例点,甚至会考虑到大量已经对预测结果没有影响的实例点,会让预测出错;选择较小的k值,相当于用较小邻域中的训练实例进行预测,会使模型变得敏感(如果邻近的实例点恰巧是噪声,预测就会出错)。

在应用中,k值一般取一个比较小的数值。通常采用交叉验证法来选取最优的k值。

(3)分类决策规则

kNN中的分类决策规则往往是多数表决,即由输入实例的k个邻近的训练实例中的多数类决定待测实例的类。

sklearn中neighbors的api


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值