KNN算法以及R语言的实现

最新推荐文章于 2024-07-03 10:42:45 发布

爆炒小青蛙

最新推荐文章于 2024-07-03 10:42:45 发布

阅读量1.8w

点赞数 6

分类专栏：机器学习 R 文章标签： R KNN 机器学习

本文链接：https://blog.csdn.net/ISMedal/article/details/79492847

版权

机器学习同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

KNN(K-Nearest-Neighbour) Classifiers, 即K-近邻算法，是一种懒惰机器学习算法(lazy learning)。简而言之，它在拿到训练集数据时并不急着去建模，而是在拿到测试集数据后，再到训练集数据中去寻找该测试样本最近的“邻居”，即距离最近的K个训练样本，依照训练样本数据的所属类别，加权或不加权地得出测试数据的类别。那么应该选择多少个邻居呢，即K取值是多还是少好呢？如果K选得小，得到的测试数据分类结果的偏差(bais)就小，同时方差(variance)增大；而如果K选得大，结果的偏差会增大，同时方差却会减小。

K近邻算法一般而言有4步：定下K值-->变量标准化-->计算测试样本到每个训练样本的距离-->加权或不加权地进行预测。下面用打高尔夫球的例子做具体计算。数据如下，共14条数据，以第一条数据作为测试样本。其中，temperature表示当天温度，humidity表表示当天湿度，play是要预测的变量，即是否打高尔夫。选择K=3，下面计算距离。

明氏距离：

这里为了方便计算，取p=1.那么第一个观测值到第2、第3个训练样本的明氏距离为：

dis1=|85-80|+|85-90|=10，dis2=|85-83|+|85-86|=3。

其他的计算方法相同，可以用R计算出每个训练样本离测试样本的距离：

library(kknn)
golf <- read.csv("golf.csv",header=T)
golf.train <- golf[-1,c(2:3,5)]
golf.test <- golf[1,2:3]
golf.kknn <- kknn(Play~.,golf.train,golf.test,k=3,scale=F,distance=1,kernel= "rectangular")
golf.kknn$CL #邻居的类别
golf.kknn$D #邻居与它的距离
golf.kknn$C #邻居的观测值号

kknn函数的参数依次为：formula，训练集，测试集，邻居的个数K，是否标准化（一般标准化，这里先不标准化），明氏距离中的参数p的值（这里设定p=1），加权方法（这里是rectangular，表示等权重，即不加权）。查看kknn选择的3个邻居的类别、距离以及所属的观测值编号：

可见，与测试样本距离最近的三个邻居分别是（删去了第一行测试数据了以后的）第2个、第1个和第12个观测值，其与测试样本的明氏距离分别为3，10和14，所属类别分别为yes,no,yes。在不加权时，各个邻居权重相等，那么很显然测试样本的分类应该听邻居中的“大多数”的，即选择yes这一类。如果选择加权呢？

加权的方式有很多种，R中提供的有：Possible choices are "rectangular" (which is standard unweighted knn), "triangular", "epanechnikov" (or beta(2,2)), "biweight" (or beta(3,3)), "triweight" (or beta(4,4)), "cos", "inv", "gaussian", "rank" and "optimal".

这里先用triangular法演示计算过程，三角加权函数的公式为：

其中，为使u处于-1到1之间，需要对u进行调整，R中使用的调整方式为：第i个邻居到测试样本的距离/排在第k+1远的邻居到它的距离，即：

在这里，最近的邻居的u1=3/15=0.2，其中15是计算出的第4远的邻居距测试样本的距离，则K(u1)=1-0.2=0.8，第二远的邻居u2=10/15=0.667,K(u1)=1-0.667=0.333,第三远的邻居u3=14/15=0.933,K(u3)=1-0.933=0.067,因此三者的权重分别为：0.8/(0.8+0.333+0.067)=0.67,0.333/(0.8+0.333+0.067)=0.28,0.067/(0.8+0.333+0.067)=0.05.所以测试样本被归为yes类的概率是0.67+0.05=0.72，而被归为no类的概率为0.28.可以看到，此结果与R的预测结果几乎相同。

golf.kknn <- kknn(Play~.,golf.train,golf.test,k=3,scale=F,distance=1,kernel= "triangular")
golf.kknn$CL #邻居的类别
golf.kknn$W #邻居的权重
golf.kknn$prob #分类结果

运行结果如下：

此外，R的kknn包中还有可以自动选择最优参数的函数：train.kknn和cv.kknn，前者采用留一交叉验证做参数选择，后者采用交叉验证做参数选择（可以自己选择折数），可以用下面的代码进行：

#取distance=2
golf.tkknn <- train.kknn(Play~.,golf[,c(2:3,5)],kernel = c("rectangular", "triangular", "epanechnikov", "optimal"),distance=2,scale=T)
plot(golf.tkknn)
golf.tkknn$MISCLASS #显示错误率
golf.tkknn #输出最优参数情况

golf.tkknn <- train.kknn(Play~.,golf[,c(2:3,5)],kernel = c("rectangular", "triangular", "epanechnikov", "optimal"),distance=1,scale=T)
plot(golf.tkknn)
golf.tkknn$MISCLASS
golf.tkknn

两者选择结果相同，最小错误率均为0.36，最好的加权方法都选择了不加权。

Minimal misclassification: 0.3571429
Best kernel: rectangular
Best k: 9

由图像也可以看到，无论k取多少，错误率最小的都是rectangular法（不加权），在k=9就明显最小。

爆炒小青蛙

关注

6
点赞
踩
74

收藏

觉得还不错? 一键收藏
6
评论
KNN算法以及R语言的实现

KNN(K-Nearest-Neighbour) Classifiers, 即K-近邻算法，是一种懒惰机器学习算法(lazy learning)。简而言之，它在拿到训练集数据时并不急着去建模，而是在拿到测试集数据后，再到训练集数据中去寻找该测试样本最近的“邻居”，即距离最近的K个训练样本，依照训练样本数据的所属类别，加权或不加权地得出测试数据的类别。那么应该选择多少个邻居呢，即K取值是多还是少好呢...
复制链接

扫一扫

专栏目录