机器学习笔记——利用sklearn中KNN算法实现鸢尾花分类

最新推荐文章于 2025-04-14 21:31:16 发布

偶尔也吃鸡

最新推荐文章于 2025-04-14 21:31:16 发布

阅读量2w

点赞数 26

分类专栏：机器学习文章标签：机器学习 sklearn KNN python

本文链接：https://blog.csdn.net/qq_41689620/article/details/82421323

版权

本文详细介绍了如何使用sklearn库中的KNN算法对鸢尾花数据集进行分类。通过数据预处理、特征标准化、模型训练与验证，结合交叉验证和网格搜索优化超参数，得出最佳的n_neighbors值为10，以此提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

sklearn KNN算法实现鸢尾花分类

编译环境
python 3.6
使用到的库
sklearn

简介

本文利用sklearn中自带的数据集(鸢尾花数据集),并通过KNN算法实现了对鸢尾花的分类。
KNN算法核心思想：如果一个样本在特征空间中的K个最相似(最近临)的样本中大多数属于某个类别，则该样本也属于这个类别。

sklearn库介绍

自2007年发布以来，scikit-learn已经成为最给力的Python机器学习库（library）了。scikit-learn支持的机器学习算法包括分类，回归，降维和聚类。还有一些特征提取（extracting features）、数据处理（processing data）和模型评估（evaluating models）的模块。
安装：

pip install sklearn

鸢尾花数据集介绍

sklearn.datasets.load_iris() # 加载并返回鸢尾花数据集

    </tr>
    <tr>
        <td>特征</td>
        <td>4</td>
        
    </tr>
    <tr>
        <td>样本数量</td>
        <td>150</td>
        
    </tr>
    <tr>
        <td>每个类别数量</td>
        <td>50</td>
        
    </tr>
</tbody>

名称	数量
类别	3

### KNN算法距离计算公式两个样本的距离也就是欧式距离，比如：样本a(a1,a2,a3)和样本b(b1,b2,b3)的距离 ![欧式距离公式](https://img-blog.csdn.net/20180905110620309?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxNjg5NjIw/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70) ### sklearn KNN算法API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')

n_neighbors：int,可选（默认= 5），k_neighbors查询默认使用的邻居数
algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，可选用于计算最近邻居的算法：‘ball_tree’将会使用 BallTree，‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)

获取鸢尾花数据

from sklearn.datasets import load_iris

def get_iris_data(self):
    iris = load_iris()
    iris_data = iris.data # 鸢尾花特征值(4个)
    iris_target = iris.target # 鸢尾花目标值(类别)

    return iris_data, iris_target

最低0.47元/天解锁文章