第一个机器学习算法，k-近邻算法，（一种分类方法）

最新推荐文章于 2021-10-15 20:34:44 发布

置顶冰冻西瓜皮

最新推荐文章于 2021-10-15 20:34:44 发布

阅读量253

点赞数

文章标签： k-near_method

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36192349/article/details/88372782

版权

代码连接：https://pan.baidu.com/s/1zrZzZJTTikrnuXuXwZIzyQ

提取码：szdg

工作原理：

第一：要存在一个带标签的样本集合。（所有样本对应的类别是已知的）

第二：当有一个新数据输入后，将新数据的每个特征与样本集中中的每一个样本的特征进行比较。

第三：提取最接近的 K 个样本。一般K <=20.

第四：在这 K 个样本中，选取出现最多的类别。作为新数据的分类。

优缺点：

优点：精度高，对异常值不敏感（提取接近的 K 个样本，当K取的较大时，异常值出现的比例降低，当再取其中出现次数最多的类别时，异常值的影响很小），无数据输入假定。

缺点：计算复杂度高（直接计算特征的距离，当数据集很大时，计算复杂度会很大），空间复杂度高。

下面给出具体流程：

收集数据：提供一个文本文件 txt文件

准备数据：将 txt 中对应的数据写入数据矩阵，（二维数组，每一行是一个样本，列为特征），对应标签写入 label向量，，使用python解析文本文件

分析数据：使用Matplotlib 画散点图，分析数据分布

核心算法代码编写：计算测试样本和样本集的欧式距离，取前 K 个，统计出现最多的 label。

测试算法：提供一个测试集，（或者选取数据集中随机的百分之10左右，作为测试数据），记录错误次数，计算正确率。

使用算法：调用代码，随意给数据，给出对应的类别。

一：收集数据。

在文件包中有一个 datingTestSet.txt 和 atingTestSet2.txt都可以使用

二：准备数据，解析文本文件。

代码如下：

当解析文本文件之后，每一个特征为数字的时候，每一个特征的数量级不一致，例如

特征A : 身高 150-------240

特征B：体重 40---------150

特征C：年龄 20-----------30

当计算欧式距离的时候，每一个特征的权重会不一致。所以在计算欧式距离之前需要对数据矩阵每一个特征进行归一化处理。（身高-min身高）/（max身高-min身高）；

代码如下：

三，分析数据：一般使用matplotlib绘制散点图。。。代码比较好理解，就没有加注释

四，核心算法编写：

代码如下：不懂的函数，可以百度搜索相关调用。

五，测试算法，选取数据集的前0.1 为测试集，后0.9为训练集。

filename 为存放数据的 txt文件， K 为截取的前 K 个近邻样本。

第六：使用算法：

传递文本文件，k，返回错误率。

冰冻西瓜皮

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第一个机器学习算法，k-近邻算法，（一种分类方法）

代码连接：https://pan.baidu.com/s/1zrZzZJTTikrnuXuXwZIzyQ提取码：szdg工作原理：第一：要存在一个带标签的样本集合。（所有样本对应的类别是已知的）第二：当有一个新数据输入后，将新数据的每个特征与样本集中中的每一个样本的特征进行比较。第三：提取最接近的 K 个样本。一般K &lt;=20.第四：在这 K 个样本中，选取出现最...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。