R机器学习-KNN近邻分析

XiaoQin-

于 2022-10-30 09:58:32 发布

阅读量286

点赞数

分类专栏： R语言与机器学习文章标签： r语言机器学习大数据

本文链接：https://blog.csdn.net/weixin_42377595/article/details/127595537

版权

R语言与机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

R语言机器学习——KNN近邻分析

概念：近邻分类器就是把无标记的归类于与它们最相似的带有标记的案例所在的类。
优点：简单、高效；训练阶段快。
缺点：不产生相关模型。
个人总结：k值的使用说明：k值越大，噪声数据对模型影响的越小，但是会使分类器产生偏差。较大的k值能够给出更直观的决策边界，较小的k适合精细化拟合，通常k值的选取从训练集观测值的平方根开始。

#载入class包/gmodels包，未安装需要先安装相关的R包
library(class)
library(gmodels)
#数据读取
wbcd<-read.csv("data-1.csv",stringsAsFactors = FALSE)
#数据整理
wbcd<-wbcd[,2:12]
#因子转换,增加标签
wbcd$diagnosis<-factor(wbcd$diagnosis,levels = c("B","M"),labels = c("Benign","Malignant"))
#对三个特征进行描述性统计
summary(wbcd[c("radius_mean","area_mean","smoothness_mean")])
#创建标准化函数(min-max)
normalize<-function(x){
  return((x-min(x))/(max(x)-min(x)))
}
#函数测试
normalize(c(1,2,3,4,5))
normalize(c(10,20,30,40,50))
#对数据应用标准化
wbcd_n<-as.data.frame(lapply(wbcd[,2:11],normalize))
#准备训练集与测试集
wbcd_train<-wbcd_n[1:469,]
wbcd_test<-wbcd_n[470:569,]
#创建标签
wbcd_train_labels<-wbcd[1:469,1]
wbcd_test_labels<-wbcd[470:569,1]
#数据训练（k一般为数据量的平方根近似奇数值）
wbcd_test_pred<-knn(train = wbcd_train,test = wbcd_test,cl=wbcd_train_labels,k=21)
#评估预测性能
CrossTable(x=wbcd_test_labels,y=wbcd_test_pred,prop.chisq = FALSE)
#提高优化模型性能（z分数标准化）
wbcd_z<-as.data.frame(scale(wbcd[-1]))
wbcd_z
summary(wbcd_z$area_mean)
#重新预测
wbcd_z_train<-wbcd_z[1:469,]
wbcd_z_test<-wbcd_z[470:569,]
wbcd_z_test_pred<-knn(wbcd_z_train,wbcd_z_test,cl=wbcd_train_labels,k=21)
#评估预测准确性
wbcd_z_result<-CrossTable(wbcd_test_labels,wbcd_z_test_pred,prop.chisq = FALSE)
#k值的使用说明：k值越大，噪声数据对模型影响的越小，但是会使分类器产生偏差。较大的k值能够给出更直观的决策边界，较小的k适合精细化拟合，通常k值的选取从训练集观测值的平方根开始。