机器学习之十大经典算法（一）KNN算法

最新推荐文章于 2023-06-18 11:33:00 发布

AI专家

最新推荐文章于 2023-06-18 11:33:00 发布

阅读量3.4k

点赞数 1

分类专栏：机器学习学习随记文章标签： KNN算法

本文链接：https://blog.csdn.net/weixin_42039090/article/details/80541973

版权

机器学习同时被 2 个专栏收录

78 篇文章 15 订阅

订阅专栏

学习随记

22 篇文章 0 订阅

订阅专栏

分类思想比较简单，从训练样本中找出 K 个与其最相近的样本，然后看这 k 个样本中哪个类别的样本多，则待判定的值（或说抽样）就属于这个类别。
缺点：
1）K 值需要预先设定，而不能自适应，一般选择20，如果数据量小的话，可以调参。
2）当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的 K 个邻居中大容量类的样本占多数。这个缺点是ＫＮＮ算法不可避免的。

该算法适用于对样本容量比较大的类域进行自动分类。

　　可以用一个图来描述：

算法步骤：

step.1---初始化距离为最大值

step.2---计算未知样本和每个训练样本的距离dist

step.3---得到目前K个最临近样本中的最大距离maxdist

step.4---如果dist小于maxdist，则将该训练样本作为K-最近邻样本

step.5---重复步骤2、3、4，直到未知样本和所有训练样本的距离都算完

step.6---统计K个最近邻样本中每个类别出现的次数

step.7---选择出现频率最大的类别作为未知样本的类别

我们使用的是scikit-learn 库中的neighbors.KNeighborsClassifier 来实行KNN.

（一）、导入包：

from sklearn import neighbors

neighbors.KNeighborsClassifier(n_neighbors=5, weights='uniform',algorithm='auto', leaf_size=30,p=2, metric=’minkowski’, metric_params=None,n_jobs=1)

其中：

（1）Algorithm 是分类时采取的算法，有 {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}，一般情况下选择auto就可以，它会自动进行选择最合适的算法。

（2）当p=1时，距离方法定义为曼哈顿距离，p=2时为欧几里得距离。一般默认值为2。

（二）、fit() 训练拟合，要分为训练集和测试集，可以自己手动分割或者调用train_test_split。

一般形式： train_test_split是交叉验证中常用的函数，功能是从样本中随机的按比例选取train data和testdata，形式为：

X_train,X_test, y_train,y_test = cross_validation.train_test_split(train_data,train_target,test_size=0.4,random_state=0) 参数解释： train_data：所要划分的样本特征集 train_target：所要划分的样本结果 test_size：样本占比，如果是整数的话就是样本的数量 random_state：是随机数的种子。

knn=KNeighborsClassifier()

knn.fit( X_train, y_train)

（三）、预测：

knn.predict(X)

这里输入X一个数组，形式类似于(如果是一个二维特征的话)：[ [0,1 ],[2,1]...]

（四）、评估：

neighbors.KNeighborsClassifier.score(X, y, sample_weight=None)

我们一般会把我们的训练数据集分成两类，一个用作学习并训练模型，一列用作测试，这个动能就是学习之后进行测试的功能来看一下准确度。

首先我们先拿我们在机器学习系列中的KNN算法中的电影分裂举例。我们在那个系列中自己实现了一个KNN分类器，采取的是欧几里得的距离，这里我们直接使用sklearn库中的函数来实现KNN算法，大家可以参考两者来看。

import numpy as np

import sklearn

from sklearn import datasets

from sklearn.neighbors importKNeighborsClassifier

X_train =np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

y_train=['0','1','1','1']

knn=KNeighborsClassifier(n_neighbors=1)

knn.fit(X_train,y_train)

knn.predict([[5,0],[4,0]])#要注意哦，预测的时候也要上使用数组形式的

AI专家

关注

1
点赞
踩
15

收藏

觉得还不错? 一键收藏
1
评论
机器学习之十大经典算法（一）KNN算法

分类思想比较简单，从训练样本中找出 K 个与其最相近的样本，然后看这 k 个样本中哪个类别的样本多，则待判定的值（或说抽样）就属于这个类别。缺点： 1）K 值需要预先设定，而不能自适应，一般选择20，如果数据量小的话，可以调参。 2）当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的 K 个邻居中大容量类的...
复制链接

扫一扫