机器学习算法之K近邻算法

最新推荐文章于 2024-06-19 14:40:49 发布

Albert_YuHan

最新推荐文章于 2024-06-19 14:40:49 发布

阅读量1.2k

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/duan20140614/article/details/78257248

版权

K-近邻(KNN)算法是一种简单的机器学习方法，主要用于分类和回归。它的核心思想是通过找到一个样本在特征空间上的K个最近邻，根据邻居的类别决定待分样本的类别。KNN算法涉及训练集、距离衡量和K值选择等问题，常用于文本分类、聚类分析等。算法优点包括简单、无需训练，缺点是效率较低，易受维度灾难影响。

摘要由CSDN通过智能技术生成

K-近邻算法

1.简介

右图中，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

KNN算法的决策过程

K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理，但在类别决策时，只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，KNN方法较其他方法更为适合。

KNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight)，如权值与距离成反比。

2.算法思想

K最近邻 (k-Nearest Neighbors，KNN) 算法的核心思想是如果一个样本在特征空间上与训练样本集中的K个样本最相似，并且这K个样本中的大多数样本属于某一个类别，则这个样本也属于该类别。（思想是“近朱者赤，近墨者黑”，由你的邻居来推断出你的类别。）

3.算法流程

该算法的流程图如下：

python 代码实现：

#coding:utf-8
from numpy import *
import operator

最低0.47元/天解锁文章

Albert_YuHan

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习算法之K近邻算法

K-近邻算法1.简介右图中，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。KNN算法的决策过程K最近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论上比较成熟的方法，也是最简单的机器学习算法之一。该方法的思路...
复制链接

扫一扫