k近邻法
是一种基本分类与回归方法,其基本做法是:给定测试实例,基于某种距离度量找出训练集中与其最靠近的k个实例点,然后基于这k个最近邻的信息来进行预测。
一、在二维数据集——KNN分类中,遇到的函数及其作用如下:
(1)KNeighborsClassifier,K近邻算法分类器
代码中:
KNeighborsClassifier(k)——参数k的含义是给定的邻居数,即:分别按照k值为1,3,5,8,10,15这六种情况进行最近邻分类预测
(2)ListedColormap,当希望图表元素的颜色与数据集中某个变量的值相关,颜色随着该变量值的变化而变化,以反映数据变化趋势、数据的聚集、分析者对数据的理解等信息时,就需要用到 matplotlib 的颜色映射(colormap)功能,即将数据映射到颜色。
代码中:
cmap_light = ListedColormap(['orange', 'cyan', 'cornflowerblue'])
cmap_bold = ListedColormap(['darkorange', 'c', 'darkblue'])
即:分别对画布背景,和画布上数据点定义了三个与数据集分类值相关的颜色。
(3)meshgrid,该函数用两个坐标轴上的点在平面上画网格,通常使用在数据的矢量化上。
它适用于生成网格型数据,可以接受两个一维数组生成两个二维矩阵,对应两个数组中所有的(x,y)对。
(4)ravel,该函数实现的功能是:将多维数组降为一维,并返回视图。
(5)reshape,
代码中:Z.reshape(xx.shape)里的xx.shape的作用是获得xx的各维度值,并返回一个元组。
reshape()的作用是改变数组的形状。
(6)subplot,该函数主要作用是创建一个子图,
(7)pcolormesh,该函数的作用就是绘制背景图,且其绘图速度比scatter()快。
plt.pcolormesh(xx, yy, y_predict, cmap=cmap_light)中各参数的含义如下:
- xx,yy-图像区域内的采样点;
- y_predict-根据采样点计算出的每个点所属的类别
- camp-将相应的值映射到颜色
(8)scatter,该函数的作用是绘制散点图,其参数含义如下:
(9)xlim和ylim,这两个函数的作用是设置数值显示范围,即:
xlim(xmin, xmax)中的两个参数分别代表了x轴上的上、下限,其中:
- xmin:x轴上显示下限
- xmax:x轴上显示上限
ylim函数同理,分别设置了y轴上的上、下限。