k近邻算法matlab实现_分类算法——K近邻

本文介绍了K近邻算法的基本原理和在Matlab中的实现,包括距离的定义、K值的选择、数据处理以及算法在乳腺癌诊断中的实践。通过实例展示了如何利用K近邻算法进行分类,并探讨了K值对模型性能的影响。
摘要由CSDN通过智能技术生成

57b988bddc3d9d824679d4b48395f1c0.png

之前介绍的可视化、数据处理、爬虫等一些操作,简单来讲都是数据分析过程或多或少接触到的部分,本想继续去介绍更多关于R语言有趣的包,比如Rmarkdown、shiny等,不过涉及的内容比较多,所有我打算隔一段时间再整理和大家分享。那么近期的话,我就打算先着手一些简单的数据分析方法的介绍,并结合实际的数据,实现一个简单的数据分析过程,经验尚浅希望通过这种方法提高自己的能力,大家有好的想法也可以提一下,我也想尝试和学习更多的内容,谢谢大家的支持。

继续回归到本次的话题,分类算法中的K近邻算法。简单来讲K近邻算法就是将未被标记的数据归类到与之最相近的带有标记的样本数据所在的类。比如我手上有一个数据集是关于客户信息及客户的消费等级的,当有新的客户加入时,可以通过客户信息,对新客户的消费等级进行归类预测,并针对该预测类别的结果,适当地推出符合该消费等级的优惠方案,促进客户的转化。

我们继续介绍K近邻算法的原理和步骤。首先我们要有一个样本数据集,该数据集中的每个样本都有对应的类别标签。其次我们将需要归类的数据集输入到我们的算法中,并且将新数据中的每个特征与样本集中数据对应的特征进行计算和比较,提取出样本集中特征最相似数据(最近邻)的分类标签。在这个过程中,我们需要注意的有几点,第一点是需要确定我们用什么去度量数据之间的相似性,第二点就是K值的确认,所谓的K近邻即意是给定一个K值,距离样本数据最近的K个训练数据集的数据中类别最多的,我们的样本就归为该类别,如图所示,绿圆表示我们需要预测的类别,当我们取K为3时,绿圆就会被判别为三角类,当K为5时,绿圆就会被判别为正方类,所以定义类别之间的距离和K值的选择就是K近邻算法中最重要的事情。

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值