机器学习实战——K-近邻算法

最新推荐文章于 2022-09-12 13:36:04 发布

bugkingyzy

最新推荐文章于 2022-09-12 13:36:04 发布

阅读量1.1k

点赞数

分类专栏：机器学习实战文章标签：机器学习 python 算法

本文链接：https://blog.csdn.net/qq_43064070/article/details/107609348

版权

本文介绍了机器学习中的K-近邻算法，包括算法原理、优缺点和适用范围。通过电影分类的例子展示了如何利用距离度量进行分类，并详细解释了算法的实施步骤。文章还提到了在多维数据下如何计算距离，例如使用欧氏距离。

摘要由CSDN通过智能技术生成

K-近邻算法

算法简介

k近邻法是一种基本分类与回归方法采用测量不同特征值之间的距离方法进行分类优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂度高。空间复杂度高。适合范围：数值型，标称型原理：存在一个训练样本集，样本集中每个数据都有标签（自己的类别），在输入最新的没有类别的数据之后，计算每个样本与最新数据的距离，一般我们选择距离最近的前k个样本，这k个样本中出现最多的类别，作为新数据的分类。

样例

使用机器学习实战书本上的样例

电影镜头	打斗镜头	接吻镜头	电影类型
电影一	1	101	爱情片
电影二	5	89	爱情片
电影三	108	5	动作片
电影四	115	8	动作片

我们已经知道k-近邻算法根据特征比较，然后提取样本集中特征最相似数据(最邻近)的分类标签

我们可以从散点图大致推断，这个红色圆点标记的电影可能属于动作片，因为距离已知的那两个动作片的圆点更近。k-近邻算法用什么方法进行判断呢？没错，就是距离度量。这个电影分类的例子有2个特征，也就是在2维实数向量空间，可以使用我们高中学过的两点距离公式计算距离
在这里插入图片描述
然后通过k近邻算法的步骤计算：
1.计算已知类别数据集中的点与当前点之间的距离；
2.按照距离递增次序排序；
3.选取与当前点距离最小的k个点；
4.确定前k个点所在类别的出现频率；
5.返回前k个点所出现频率最高的类别作为当前点的预测分类。
比如，现在这个k值取3，那么在电影例子中，按距离依次排序的三个点分别是动作片(108,5)、动作片(115,8)、爱情片(5,89)。在这三个点中，动作片出出现的次数最多，所以该红色圆点标记的电影为动作片。这个判别过程就是k-近邻算法。

准备数据

# -*- coding: utf-8 -*-

'''
编写函数，将样本集和类别写入函数
'''
from numpy

最低0.47元/天解锁文章

bugkingyzy

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录