2020-12-22

最新推荐文章于 2024-07-11 13:14:55 发布

ccp老IT

最新推荐文章于 2024-07-11 13:14:55 发布

阅读量142

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_33776772/article/details/111537292

版权

K-Nearest Neighbor K临近算法是一种有监督的分类算法，工作原理很简单，存在一个样本集合，也成为训练样本，样本中包含标签，将新数据的每个特征与样本集合的数据对应特征进行比较，然后提取样本最相似的分类标签，k就是选择的最相似的数据点，选择k个点中出现频率最高的分类，就是新数据的分类。一般来说k不会超过20个。Knn有两个细节需要注意，一个是相似度算法，常用包含欧式距离，余弦距离等等，另外一个在计算相似度之前需要归一化特征，比如使用离差标准化（Min-Max），把所有特征都转换到[0，1]之间，转换公式为newx=(x-min)/(max-min)。

KNN分类在很多应用场景都有广泛的应用，比如电影分类，手写字体识别等等。比如在电影分类中，使用两个特征，一个是接吻次数，一个是打斗次数。包含两种分类，一种是爱情片，一种是动作片。
一、knn算法描述
1.基本概述
knn算法，又叫k-近邻算法。属于一个分类算法，主要思想如下：
一个样本在特征空间中的k个最近邻的样本中的大多数都属于某一个类别，则该样本也属于这个类别。其中k表示最近邻居的个数。

用二维的图例，说明knn算法，如下：
在这里插入图片描述

二维空间下数据之间的距离计算：
在这里插入图片描述

在n维空间两个数据之间:在这里插入图片描述
2.具体步骤：
（1）计算待测试数据与各训练数据的距离
（2）将计算的距离进行由小到大排序
（3）找出距离最小的k个值
（4）计算找出的值中每个类别的频次
（5）返回频次最高的类别

二、鸢尾花数据集
Iris 鸢尾花数据集内包含 3 类分别为山鸢尾（Iris-setosa）、变色鸢尾（Iris-versicolor）和维吉尼亚鸢尾（Iris-virginica），共 150 条记录，每类各 50 个数据，每条记录都有 4 项特征：花萼长度、花萼宽度、花瓣长度、花瓣宽度，可以通过这4个特征预测鸢尾花卉属于哪一品种。
iris数据集包含在sklearn库当中，具体在sklearn\datasets\data文件夹下，文件名为iris.csv。以本机为例。其路径如下：
D:\python\lib\site-packages\sklearn\datasets\data\iris.csv
其中数据如下格式：
在这里插入图片描述

第一行数据意义如下：
150：数据集中数据的总条数
4：特征值的类别数，即花萼长度、花萼宽度、花瓣长度、花瓣宽度。
setosa、versicolor、virginica：三种鸢尾花名

从第二行开始：
第一列为花萼长度值
第二列为花萼宽度值
第三列为花瓣长度值
第四列为花瓣宽度值
第五列对应是种类（三类鸢尾花分别用0，1，2表示）
三、算法实现
1.算法流程图：
在这里插入图片描述

从以上流程图可以看出，knn算法包含后四步操作，所以将整个程序分为三个模块。

ccp老IT

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2020-12-22

K-Nearest Neighbor K临近算法是一种有监督的分类算法，工作原理很简单，存在一个样本集合，也成为训练样本，样本中包含标签，将新数据的每个特征与样本集合的数据对应特征进行比较，然后提取样本最相似的分类标签，k就是选择的最相似的数据点，选择k个点中出现频率最高的分类，就是新数据的分类。一般来说k不会超过20个。Knn有两个细节需要注意，一个是相似度算法，常用包含欧式距离，余弦距离等等，另外一个在计算相似度之前需要归一化特征，比如使用离差标准化（Min-Max），把所有特征都转换到[0，1]之间，
复制链接

扫一扫