K-近邻算法详细介绍

最新推荐文章于 2022-07-12 21:10:26 发布

qq_23933913

最新推荐文章于 2022-07-12 21:10:26 发布

阅读量942

点赞数

分类专栏：机器学习文章标签： K-近邻算法编程实现算法详解

本文链接：https://blog.csdn.net/qq_23933913/article/details/78187808

版权

这篇博客详细介绍了K-近邻算法的概念、应用和实现，通过抽象和现实例子进行解释，并在UCI蘑菇数据集上进行实验，探讨了距离度量（如欧式距离和曼哈顿距离）、K值选择对算法效果的影响，以及多数表决规则在分类决策中的作用。实验结果显示，K值在1到20之间时，准确率较高，曼哈顿距离可能获得比欧式距离更高的准确率。

摘要由CSDN通过智能技术生成

刚开始学习机器学习，在做K-近邻算法时，看很多关于这方面的资料，然后总结了一下。有不对的地方，希望大家批评指正。

概念定义

K-近邻算法：
第一句：给定一个带标签的样本数据集合（称为：训练集）
第二句：当输入没有标签的新数据（新数据：测试集中的数据）后
第三句：将新数据的每个特征与训练集中所有数据对应的特征进行相似性比较
第四句：选择训练集中前K个最相似（最近邻）的数据，提取前K个最相似的数据的分类标签，（说明：通常K是不大于20的整数）。
第五句：选择这K个最相似数据中出现次数最多的类别标签，作为新数据的类别标签

1.1、抽象举例解释

例子1：图形判断

解释：第一句：给定一个带标签的样本数据集合（称为：训练集）
如下图所示：红色三角形和蓝色正方形组成的集合称为训练集，标签只有三角形，正方形。

解释：第二句：当输入没有标签的新数据（新数据：测试集中的数据）后。
图中，中间的绿色图形表示的是没有标签的新数据

第三句：将新数据的每个特征与训练集中所有数据对应的特征进行相似性比较
这里采用欧式距离进行比较，即：比较两点间的距离的大小。距离越大，相似性就越小；距离越小，相似性就越大。（遗留问题1：相似性比较方法有哪些？）

第四句：选择训练集中前K个最相似（距离最小）的数据，提取训前K个最相似的数据的分类标签，（遗留问题2：k的值设定多少才合适）
第五句：选择这K个最相似数据中出现次数最多的类别标签（多数表决规则），作为新数据的类别标签（遗留问题3：多数表决规则怎样通过数学来解释）

1.2、现实举例解释

例子：电影类型评估

解释1：第一句：给定一个带标签的样本数据集合（称为：训练集）

电影名称	打斗镜头	接吻镜头	电影类型
《泰坦尼克号》	3	104	爱情片
《夏洛特烦恼》	2	100	爱情片
《从你的全世界路过》	1	81	爱情片
《战狼2》	101	10	动作片
《变形金刚5》	99	5	动作片
《猩球崛起3》	98	2	动作片

解释2：第二句：当输入没有标签的新数据（新数据：测试集中的数据）后

最低0.47元/天解锁文章

qq_23933913

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
K-近邻算法详细介绍

概念定义K-近邻算法：第一句：给定一个带标签的样本数据集合（称为：训练集）第二句：当输入没有标签的新数据（新数据：测试集中的数据）后第三句：将新数据的每个特征与训练集中所有数据对应的特征进行相似性比较第四句：选择训练集中前K个最相似（最近邻）的数据，提取前K个最相似的数据的分类标签，（说明：通常K是不大于20的整数）。第五句：选择
复制链接

扫一扫