机器学习----knn算法

本文介绍了kNN(k-Nearest Neighbor)算法的基本原理、优缺点,并详细阐述了算法设计过程,包括KNN模型的流程图。通过Python代码实现了kNN算法,并在鸢尾花数据集上进行了测试。此外,讨论了算法的测试、调试和运行结果,以及在实际应用中的效果。最后,提到了在编写代码和学习过程中参考的相关函数知识。
摘要由CSDN通过智能技术生成

1.题目分析

使用原生python实现knn分类算法,并使用鸢尾花数据集。


knn算法介绍

KNN(k-Nearest Neighbor)算法,即k最近邻算法。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。

其优点:

1.简单,易于理解,易于实现,无需估计参数,无需训练;

2. 适合对稀有事件进行分类;

3.特别适合于多分类问题(multi-modal,对象具有多个类别标签), kNN比SVM的表现要好。

缺点:

(1)最大的不足之处:当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。 该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响运行结果。

(2)计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。

(3)可理解性差,无法给出像决策树那样的规则。


2.算法设计

2.1  KNN模型算法流程图如下图所示:

2.2(1)首先定义一个KNN()类;

     (2)定义__init__()方法进行初始化,设k值为3;

     (3)定义fit()方法,传入训练集x_train和y_train;

     (4)定义distance()方法,求测试集与

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值