懒惰学习——使用近邻分类（KNN）

最新推荐文章于 2024-01-18 14:53:56 发布

littlely_ll

最新推荐文章于 2024-01-18 14:53:56 发布

阅读量5.2k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/littlely_ll/article/details/54866185

版权

本文介绍了KNN算法，包括其优点和缺点。通过案例详细演示了如何使用KNN算法诊断乳腺癌，从数据收集、探索、预处理到模型训练和评估。在数据准备阶段进行了min-max标准化和z-score标准化，并通过调整k值来提高模型性能。最终模型正确率为98%。

摘要由CSDN通过智能技术生成

KNN算法

优点：

简单有效；对数据的分布没有要求；训练阶段很快。

缺点：

不产生模型，在发现特征之间的关系上的能力有限；分类阶段很慢；需要大量的内存；名义变量（特征）和缺失数据需要额外处理。

之所以被称为懒惰学习算法，是因为从技术上说，没有抽象化的步骤。抽象过程与一般过程都被跳跃过去了。由于高度依赖训练案例，所以懒惰学习又称为机械学习。机械学习不会建立一个模型，所以该方法被归类为非参数学习方法。

案例用KNN算法诊断乳腺癌

第一步——收集数据

数据来源于UCI机器学习数据仓库的“威斯康星乳腺癌诊断”（Brest Cancer Wisconsin Diagnostic）数据集，网址：http://archive.ics.uci.edu/ml/

数据集包括569个细胞活检案例，每个案例32个特征。一个特征是识别号，一个特征是诊断结果，其他30个特征是数值型测量结果，诊断结果用“M”表示恶性，“B”表示良性。

第二步——探索和准备数据

首先导入CSV文件：

wbcd<-read.csv("wisc_bc_data.csv"，header=F)

第一个变量信息id不能提供有用信息，所以删除：

wbcd<-wbcd[-1]

使用table函数查看恶性和良性肿瘤个数：

table(wbcd$V2)

  B   M 
357 212

许多R机器学习分类器要求将目标属性编码为因子变量，所以重新编码wbcd的第一列，同时用labels参数对B值和M值给出更多信息：

最低0.47元/天解锁文章

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。