Scikit-learn K临近算法

最新推荐文章于 2024-06-01 17:07:43 发布

Big_Head_

最新推荐文章于 2024-06-01 17:07:43 发布

阅读量350

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/Big_Head_/article/details/80488589

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

K近邻算法是一种基本的分类与回归的方法。
简单来讲，这个算法就是遵循近朱者赤近墨者黑的道理，对于需要判断的点来说，并不需要去找一个模型来给出这个点的答案，而只是需要知道一个点集的所有点的答案，然后观察这个点附近的K个点是什么，然后这个K个点来投票决定我的这个点到底是什么来的。

这个算法是没有显示的学习过程，只是利用了训练集的特征向量空间进行划分，其实这个就是K临近算法的模型了。

对于这个K临近算法，它的三要素如下：
1、K值的选择，如果K太大（就像K和数据集差不多大）那模型就太简单了，以至于会忽略掉训练集中很多信息，如果K太小，模型又会太敏感，很容易受一些错误的点影响。
2、距离度量，对于一个点来说，要如何判断离它最近的K的点呢？那就需要有一个计算点与点之间距离的一个公式，常用的有欧式距离，曼哈顿距离，以及Minkowski距离
3、分类决策规则：这个就是采用的多数表决，也即是从最邻近的K个点当中，由最多的一个类别来决定。

在Scikit-learn中给的K临近算法中，在算法选择上给出了Brute Force, K-Dtree, Ball-tree和auto这几种选择，我只对KD-tree有所了解。
KD-tree的话就是一颗二叉树，只不过这是一棵按照严格规定实现的二叉树。KD-tree可以保持这棵树的平衡，简单来讲，就是无论我在这棵树上寻找哪个哪个点的K近邻，我花费的时间都不会相差太多，而且平均时间也很客观。KD-tree的建立就是通过每一层以不同的关键字来选取平衡轴，比如我的数据是二维坐标，那我的树的第一层是以深度%2 + 1 （也就是我二维坐标的x坐标）这个数据来找平衡中心，由此类推，知道最后所有数据都分配到树上。再寻找的时候先顺着树往下找，找到当前最近的点，然后往上回退，看看再另一个节点中有没有比当前更小的，有就加入到K个临近点中，没有就继续往上回退，知道最后到达根节点。

下面讲讲使用Scikit-learn中的KNN算法：

from sklearn.neighbors import KNeighborsClassifier  #这是调用库

knn = KNeighborsClassifier(n_neighbors=3,weights='distance',algorithm='kd_tree')
#这里就是建立一个KNN模型，使用了KD_TREE作为算法，这里的weights参数是用来给距离加权的，越远的权重会越小
#n_neighbors就是所谓的K了

knn.fit(X_train, y_train)
#训练模型

knn.predict(X_test)
#做出预测，返回类别

knn.predict_proba(X_test)
#这个预测出来的是每一个类别的概率，可以进行叠加
#可以通过numpy来转化成类别
#predict_label = np.array(y_pre[i]).argsort()[-1]   也就是这样

这次用KNN跑数据分类的结果是：
验证集：0.540188029
测试集：0-579220779
参考：李航《统计学习方法》