python分类分析--K-近邻(KNN)算法及鸢尾花分类案例

本文介绍了K-近邻(KNN)算法的基本原理,强调了K值选择对分类结果的影响,并探讨了算法的优缺点。在特征值标准化处理方面,阐述了其对分类准确性的重要性。此外,文章还提供了使用Python的sklearn库实现KNN算法的案例,结合鸢尾花数据集进行了详细说明。
摘要由CSDN通过智能技术生成

1、分类分析--K近邻(KNN)算法原理

核心思想:根据离自己最近的邻居判断自己属于哪一类,如上图当圆的半径(距离)为1时,k个个体中有2/3个是三角形,则目标圆点(预测点)的分类和三角形为一类;当半径(距离)取值为2时,k个特征个体中有3/5个是正方形,则认为预测点和正方形为一类的思想。由此也说明了KNN算法的结果很大程度取决于K的选择。

我们设定要取的k个邻近点来看属于哪一类别的分类时,其实就找距离目标(预测)点最近的k个点就可以了,那么我们就要先求得各个样本点离预测点的距离d。

在KNN中,通过计算对象间距离来作为各个对象之间的非相似性指标,避免了对象之间的匹配问题,在这里距离一般使用欧氏距离或曼哈顿距离或名可夫斯基距离:

 

2、特征值进行标准化:

当特征变量之间差值非常大时,如果不进行标准化处理,则会导致预测错误。如下图,当k值取3时,非标准化计算的距离最近的电影是E、F、D,100%判断为动作片;标准化处理后最近距离的电影是C、B、D,则判断为爱情片,显然更准确。

3、KNN的优缺点

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值