机器学习——K-近邻

最新推荐文章于 2023-08-05 19:43:48 发布

不会CV的酸菜鱼

最新推荐文章于 2023-08-05 19:43:48 发布

阅读量191

点赞数

文章标签：机器学习 python 人工智能

本文链接：https://blog.csdn.net/Shmily17s/article/details/130545057

版权

K-近邻算法（KNN)概述：意思就是找最近的K点来判断属于哪个类别。

Scikit-learn的使用:

K-近邻算法的API：sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, algorithm = 'auto') n_neighbors表是默认使用的邻居数（默认为5）,algorithm:{'auto','ball_tree','kd_tree','brute'}
看predict的数距离x的哪个值更近，然后在用x判断y，然后在输出y。也就是100离4和3比较近，然而更倾向于4，4属于y的1，最后也就输出1.
获取数据集：from sklearn.datasets import load_iris

KD树：当KNN每次需要预测一个点时，我们都需要计算训练集中的每个点到这个点的距离，然后选出距离这个点最近的k个点进行投票。而KD树是为了避免每次都要重新计算距离，算法会将距离信息保存到一棵树里，这样在计算之前从树里查询距离信息，避免重新计算。

基本原理：如果A和B很远，B和C很近，那么A和C也就很远，根据这个信息，有时候就可以跳过距离很远的点。类比 “二分查找”
案例分析：
1. 按照X-Y-X的顺序划分树
2. 例如查找（2.1，3.1），先看X轴，2.1比7小，所以走左边，然后再看Y轴，3.1比4小，所以又走左边，所以判断出在（2，3）附近

数据可视化：

数据集划分：一般会将数据划分为训练数据（用于训练构建模型）和测试数据（在模型检验时使用，用于评估模型是否有效）。