K-近邻算法简介

最新推荐文章于 2023-10-09 21:11:23 发布

qq_33231969

最新推荐文章于 2023-10-09 21:11:23 发布

阅读量408

点赞数 1

分类专栏：机器学习算法Python实现文章标签： K-近邻算法机器学习

本文链接：https://blog.csdn.net/qq_33231969/article/details/71577876

版权

机器学习算法Python实现专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.K-近邻算法原理
K-近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论很成熟的机器学习算法之一。该算方法的工作原理：有一个样本的数据集，在机器学习中统称为训练样本集。在训练集中每个数据都有其标签，我们通过标签可以知道每个数据的所属分类。当我们输入一个没有标签的新数据后，如果这个数据在特征空间中的k个最相似(即特征空间中最邻近)的数据中的大多数属于某一个类别，则该样本也属于这个类别（即可以理解为离哪些K个样本最近，则类别和这K个样本一样）。
2.实例讲解K-近邻算法
如右图所示，有两类不同的样本数据，分别用蓝色的小正方形和红色的小三角形表示，而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说，现在，我们不知道中间那个绿色的数据是从属于哪一类（蓝色小正方形or红色小三角形），下面，我们就要解决这个问题：给这个绿色的圆分类。我们常说，物以类聚，人以群分，判别一个人是一个什么样品质特征的人，常常可以从他/她身边的朋友入手，所谓观其友，而识其人。我们不是要判别上图中那个绿色的圆是属于哪一类数据么，好说，从它的邻居下手。但一次性看多少个邻居呢？从上图中，你还能看到：
1.如果K=3，绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形，少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于红色的三角形一类。
2.如果K=5，绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形，还是少数从属于多数，基于统计的方法，判定绿色的这个待分类点属于蓝色的正方形一类。这里写图片描述
3.K-近邻算法的优缺点
优点：精度高，对异常数据不敏感（你的类别是由邻居中的大多数决定的，一个异常邻居并不能影响太大），无数据输入假定；
缺点：计算发杂度高（需要计算新的数据点与样本集中每个数据的“距离”，以判断是否是前k个邻居），空间复杂度高（巨大的矩阵）；样本的不均衡可能造成结果错误：如果一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。

qq_33231969

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
K-近邻算法简介

1.K-近邻算法原理 K-近邻(k-Nearest Neighbor，KNN)分类算法，是一个理论很成熟的机器学习算法之一。该算方法的工作原理：有一个样本的数据集，在机器学习中统称为训练样本集。在训练集中每个数据都有其标签，我们通过标签可以知道每个数据的所属分类。当我们输入一个没有标签的新数据后，如果这个数据在特征空间中的k个最相似(即特征空间中最邻近)的数据中的大多数属于某一个类
复制链接

扫一扫