机器学习之KNN算法

最新推荐文章于 2024-04-22 16:52:50 发布

huixinbuding

最新推荐文章于 2024-04-22 16:52:50 发布

阅读量276

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/huixinbuding/article/details/78664272

版权

本文介绍了机器学习中的KNN算法，详细讲解了其原理，包括计算样本间距离、按距离排序、选取最近K个点及确定类别频率。同时，提供了Python代码实现，强调在处理特征值时进行归一化处理的重要性。

摘要由CSDN通过智能技术生成

机器学习之KNN算法

机器学习之KNN算法

原理

KNN的原理非常简单，在训练样本集中，知道每个数据的标签，那么输入未标注的新数据时，将新数据的每个特征与训练样本数据对应的特征进行比较，然后算法提取样本集中特征最相似的数据（最近邻）的分类标签，作为新数据的标签。
 一般来说，我们选择样本数据集中前K个（一般不大于20）最相似的数据（这就是K-近邻的出处），选择K个最相似数据中出现次数最多的分类标签，作为新数据的分类标签。

伪代码

1、计算已知类别属性的数据中的点与当前需要预测点之恋的距离；
2、按照距离递增次序排列（距离越小，越相似）；
3、选择与当前点距离最小的K个点；
4、确定前K个点所在类别出现的频率；
5、返回前K个点出现频率最高的类别作为当前点的预测分类；

Python 代码实现

K-近邻算法
python3.6 def classify0(inX,dataSet, labels ,k): dataSetSize = dataSet.shape[0] #shape 是numpy数据库中的函数，用于计算矩阵的行和列，[0]代替行数，[1]代表列数 diffMat = tile(inX, (dataSetSize,1)) - dataSet #tile(