监督学习算法——K近邻——《python机器学习基础教程》

最新推荐文章于 2022-10-17 14:38:21 发布

pillow_L

最新推荐文章于 2022-10-17 14:38:21 发布

阅读量704

点赞数

分类专栏：监督学习算法——K近邻

本文链接：https://blog.csdn.net/baidu_28660921/article/details/104599532

版权

监督学习算法

常用的监督机器学习算法有：
1.K近邻（kNN，k-NearestNeighbor）
2.线性模型
3.朴素贝叶斯（Naive Bayesian）
4.决策树（Decision Tree）
5.决策树集成
6.核支持向量机（SVM，Support Vector Machine）
7.神经网络

K近邻（KNN，k-NearestNeighbor）

K-NN算法可以说是最简单的机器学习算法。

构建模型只需要保存训练数据集即可。

想要对新的数据点进行预测，算法会在训练数据集中找到最近的数据点，也就是它的最“最近邻”作为预测值输出。

1.k近邻分类

K-NN算法最简单的版本只考虑一个最近邻，也就是与我们想要预测的数据点最近的训练数据点。

预测结果就是与之最近的这个数据点的已知输出。

import mglearn
import matplotlib.pyplot as plt
mglearn.plots.plot_knn_classification(n_neighbors=1)
plt.show()

这里我们添加了3个新数据点（用五角星表示）。

对于每个新数据点，我们标记了训练集中与它最近的点。

单一最近邻算法的预测的结果就是那个点的标签（对应五角星的颜色）。

除了考虑最近邻的一个数据点，我们还可以考虑任意个（k个）邻居。这也是k近邻算法名字的来历。

在考虑多于一个邻居的情况是，我们用“投票法”（voting）来指定标签。

也就是说，对于每个测试点，我们数一数多少邻居属于类别0，多少邻居属于类别1，

然后将出现次数最多的类别（也是k个近邻中占多数的类别）作为预测结果。

下面的例子用到了3个近邻。

import mglearn
import matplotlib.pyplot as plt
mglearn.plots.plot_knn_classification(n_neighbors=3)
plt.show()

从五角星颜色可以看出预测结果。

左上角的数据点预测结果与只用一个近邻时的预测结果不同。

虽然上图对应的是一个二分类问题，但方法同样适用于多分类的数据集。

对于多分类问题，我们数一数每个类别分别有多少个邻居，然后将出现次数最多的类别作为预测结果。

接下来通过scikit-learn来应用k近邻算法。

import mglearn
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

X, y = mglearn.datasets.make_forge()
# 将数据分为训练集和测试集，以便评估泛化性能
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
from sklearn.neighbors import KNeighborsClassifier
# 导入类并将其实例化，设定邻居个数为3
clf = KNeighborsClassifier(n_neighbors=3)
# 利用训练集对这个

最低0.47元/天解锁文章

pillow_L

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
监督学习算法——K近邻——《python机器学习基础教程》

监督学习算法常用的监督机器学习算法有：1.K近邻（kNN，k-NearestNeighbor）2.线性模型3.朴素贝叶斯（Naive Bayesian）4.决策树（Decision Tree）5.决策树集成6.核支持向量机（SVM，Support Vector Machine）7.神经网络一.K近邻（KNN，k-NearestNeighbor）K-NN算法可以说是最简单的...
复制链接

扫一扫

专栏目录