python knn模型_Python机器学习——kNN

k近邻

1.k近邻分类

kNN算法最简单的版本只考虑一个最近邻,也就是与我们想要预测的数据点最近的训练数据点。预测结果就是这个训练数据点的已知输出。

import mglearn

mglearn.plots.plot_knn_classification(n_neighbors=1)

C:\ProgramData\Anaconda3\lib\site-packages\sklearn\utils\deprecation.py:77: DeprecationWarning: Function make_blobs is deprecated; Please import make_blobs directly from scikit-learn

warnings.warn(msg, category=DeprecationWarning)单一最近邻模型对forge数据集的预测结果

这里添加了3个新数据点(五角星表示)。对每个新数据点,标记了训练集中与它最近的点。单一最近邻算法的预测结果就是那个点的标签(对应五角星的颜色)。

除了仅考虑最近邻,还可以考虑任意个(k个)邻居。在考虑多于一个邻居的情况时,用“投票法”来指定标签。也就是说,对于每个测试点,我们数一数多少个邻居属于类别0,多少个邻居属于类别1。然后将出现次数更多的类别(也就是k个近邻中占多数的类别)作为预测结果。下面的例子用到了3个近邻:

mglearn.plots.plot_knn_classification(n_neighbors=3)

C:\ProgramData\Anaconda3\lib\site-packages\sklearn\utils\deprecation.py:77: DeprecationWarning: Function make_blobs is deprecated; Please import make_blobs directly from scikit-learn

warnings.warn(msg, category=DeprecationWarning)3近邻模型对forge数据集的预测结果

通过scikit-learn来应用k近邻算法:首先将数据分为训练集和测试集,以便评估泛化性能:

from sklearn.model_selection import train_test_split

X,y = mglearn.datasets.make_forge()

X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=0)

C:\ProgramData\Anaconda3\lib\site-packages\sklearn\utils\deprecation.py:77: DeprecationWarning: Function make_blobs is deprecated; Please import make_blobs directly from scikit-learn

warnings.warn(msg, category=DeprecationWarning)

'''导入类并将其实例化。这时可以设定参数,比如邻居的个数。'''

from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier(n_neighbors=3)

'''利用训练集对这个分类器进行拟合。对于KNeighborsClassifier来说就是保存数据集,以便在预测时计算与邻居之间的距离:'''

clf.fit(X_train,y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',

metric_params=None, n_jobs=1, n_neighbors=3, p=2,

weights='uniform')

print("Test set predictions:{}".format(clf.predict(X_test)))

Test set predictions:[1 0 1 0 1 0 0]

为了评估模型的泛化能力好坏,可以对测试数据和测试标签调用score方法:

print("Test set accuracy:{:.2f}".format(clf.score(X_test,y_test)))

Test set accuracy:0.86

2.分析KNeighborsClassifier

对于二维数据集,可以在xy平面上画出所有可能的测试点的预测结果。根据平面中每个点所属的类别对平面进行着色。这样可以查看决策边界(decision boundary),即算法对类别0和类别1的分界线。

# 下面代码分别将1个、3个、9个邻居三种情况的决策边界可视化:

import matplotlib.pyplot as plt

fig,axes = plt.subplots(1,3,figsize=(10,3))

for n_neighbors,ax in zip([1,3,9],axes):

#fit方法返回对象本身,所以可以将实例化和拟合放在一行代码中

clf=KNeighborsClassifier(n_neighbors=n_neighbors).fit(X,y)

mglearn.plots.plot_2d_separator(clf,X,fill=True,eps=0.5,ax=ax,alpha=.4)

mglearn.discrete_scatter(X[:,0],X[:,1],y,ax=ax)

ax.set_title("{} neighbor(s)".format(n_neighbors))

ax.set_xlabel("feature 0")

ax.set_ylabel("feature 1")

axes[0].legend(loc=3)

不同n_neighbors值的k近邻模型的决策边界

从左图可以看出,使用单一邻居绘制的决策边界紧跟着训练数据。随着邻居个数越来越多,决策边界也越来越平滑。更平滑的边界对应更简单的模型。换句话说,使用更少的邻居对应更高的模型复杂度,而使用更多的邻居对应更低的模型复杂度。

下面在现实世界的乳腺癌数据集上进行研究。先将数据集分成训练集和测试集,然后用不同的邻居个数对训练集和测试集的性能进行评估。

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

X_train,X_test,y_train,y_test = train_test_split(

cancer.data,cancer.target,stratify=cancer.target,random_state=66)

trainning_accuracy = []

test_accuracy = []

#n_neighbors取值从1到10

neighbors_settings = range(1,11)

for n_neighbors in neighbors_settings:

#构建模型

clf=KNeighborsClassifier(n_neighbors=n_neighbors)

clf.fit(X_train,y_train)

#记录训练集精度

trainning_accuracy.append(clf.score(X_train,y_train))

#记录泛化精度

test_accuracy.append(clf.score(X_test,y_test))

plt.plot(neighbors_settings,trainning_accuracy,label="trainning accuracy")

plt.plot(neighbors_settings,test_accuracy,label="test accuracy")

plt.ylabel("Accuracy")

plt.xlabel("n_neighbors")

plt.legend()

以n_neighbors为自变量,对比训练集精度和测试集精度

3.k近邻回归

#单一近邻回归对wave数据集的预测结果

mglearn.plots.plot_knn_regression(n_neighbors=1)单一近邻回归对wave数据集的预测结果

#3个近邻回归对wave数据集的预测结果

mglearn.plots.plot_knn_regression(n_neighbors=3)3个近邻回归对wave数据集的预测结果

#用于回归的k近邻算法在scikit-learn的KNeighborsRegressor类中实现。

from sklearn.neighbors import KNeighborsRegressor

X,y=mglearn.datasets.make_wave(n_samples=40)

X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0)

#模型实例化,并将邻居个数设为3

reg = KNeighborsRegressor(n_neighbors=3)

#利用训练数据和训练目标值来拟合模型

reg.fit(X_train,y_train)

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',

metric_params=None, n_jobs=1, n_neighbors=3, p=2,

weights='uniform')

print("Test set predictions:\n{}".format(reg.predict(X_test)))

Test set predictions:

[-0.05396539 0.35686046 1.13671923 -1.89415682 -1.13881398 -1.63113382

0.35686046 0.91241374 -0.44680446 -1.13881398]

print("Test set R^2:{:.2f}".format(reg.score(X_test,y_test)))

Test set R^2:0.83

还可以用 score 方法来评估模型,对于回归问题,这一方法返回的是

分数。

数也叫作决定系数,是回归模型预测的优度度量,位于 0 到 1 之间。

等于1对应完美预测,等于0对应常数模型。

4.分析KNeighborsRegressor

fig,axes = plt.subplots(1,3,figsize=(15,4))

#创建1000个数据点,在-3和3之间均匀分布

line=np.linspace(-3,3,1000).reshape(-1,1)

for n_neighbors,ax in zip([1,3,9],axes):

reg=KNeighborsRegressor(n_neighbors=n_neighbors)

reg.fit(X_train,y_train)

ax.plot(line,reg.predict(line))

ax.plot(X_train,y_train,'^',c=mglearn.cm2(0),markersize=8)

ax.plot(X_test,y_test,'^',c=mglearn.cm2(1),markersize=8)

ax.set_title(

"{} neighbor(s)\ntrain score:{:.2f} test score:{:.2f})".format(

n_neighbors,reg.score(X_train,y_train),

reg.score(X_test,y_test)))

ax.set_xlabel("Feature")

ax.set_ylabel("Target")

axes[0].legend(["Model predictins","Trainning data/target","Test data/target"],loc="best")

不同n_neighbors值的k近邻回归的预测结果对比

从图中可以看出,仅使用单一邻居,训练集中的每个点都对预测结果有显著影响,预测结果的图像经过所有数据点。这导致预测结果非常不稳定。考虑更多的邻居后,预测结果变得更加平滑,但对训练数据的拟合也不好。

5.优点、缺点和参数

一般来说,KNeighbors分类器有2个重要参数:邻居个数与数据点之间距离的度量方法。在实践中,使用较小的邻居个数(3个或5个)往往可以得到比较好的结果,但应调节这个参数。距离度量默认使用欧氏距离,在许多情况下的效果都很好。

kNN的优点之一就是模型很容易理解,通常不需要过多调节就可以得到不错的性能。构建最近邻模型的速度通常很快,但如果训练集很大(特征数很多或者样本数很大),预测速度可能会比较慢。使用KNN算法时,对数据进行预处理是很重要的。这一算法对于有很多特征(几百或更多)的数据集往往效果不好,对于大多数特征的大多数取值都为0的数据集(所谓的稀疏数据集)来说,这一算法的效果尤其不好。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值