机器学习：K-近邻算法及鸢尾花案例实现

最新推荐文章于 2024-02-15 10:20:03 发布

best_mimo

最新推荐文章于 2024-02-15 10:20:03 发布

阅读量208

点赞数

分类专栏：机器学习算法文章标签：机器学习近邻算法人工智能

本文链接：https://blog.csdn.net/SupermarketX/article/details/134065510

版权

机器学习算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1 什么是K-近邻算法？

在这里插入图片描述

根据你的“邻居”来推断出你的类别

1.1 根据你的“邻居”来推断出你的类别

K Nearest Neighbor算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法

定义
如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。
距离公式
两个样本的距离可以通过如下公式计算，又叫欧式距离。

1.2 电影类型分析

假设我们现在有几部电影
在这里插入图片描述

其中？号电影不知道类别，如何去预测？我们可以利用K近邻算法的思想。
分别计算每个电影和被预测电影的距离，然后求解。

1.3 KNN算法流程总结

计算已知类别数据集中的点与当前点之间的距离
按距离递增次序排序
选取与当前点距离最小的k个点
统计前k个点所在的类别出现的频率
返回前k个点出现频率最高的类别作为当前点的预测分类

1.4 KNN：案例：鸢尾花种类预测—流程实现

1.4.1 案例：鸢尾花种类预测

1.a 数据集介绍

Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。关于数据集的具体介绍：
在这里插入图片描述

1.b 步骤分析

1.获取数据集
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估

1.c 代码展示

"""
1.获取数据集
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
"""

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

# 1.获取数据集
iris = load_iris()

# 2.数据基本处理
# 2.1 数据分割
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22, test_size=0.2)

# 3.特征工程
# 3.1 实例化一个转化器
transfer = StandardScaler()
# 3.2 调用fit_transform方法
x_train = transfer.fit_transform(x_train)
x_test = transfer.fit_transform(x_test)

# 4.机器学习(模型训练)
# 4.1 实例化一个估计器
estimator = KNeighborsClassifier(n_neighbors=5)  # 默认使用的邻居数
# 4.2 模型训练
estimator.fit(x_train, y_train)

# 5.模型评估
# 5.1 输出预测值
y_pre = estimator.predict(x_test)
print("预测值是：\n", y_pre)
print("预测值和真实值对比：\n", y_pre == y_test)

# 5.2 输出准确率
ret = estimator.score(x_test, y_test)
print("准确率是:\n", ret)

2 总结

KNeighborsClassifier的使用【知道】
sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm=‘auto’)
algorithm（auto,ball_tree, kd_tree, brute） – 选择什么样的算法进行计算

best_mimo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
机器学习：K-近邻算法及鸢尾花案例实现

计算已知类别数据集中的点与当前点之间的距离按距离递增次序排序选取与当前点距离最小的k个点统计前k个点所在的类别出现的频率返回前k个点出现频率最高的类别作为当前点的预测分类Iris数据集是常用的分类实验数据集，由Fisher, 1936收集整理。Iris也称鸢尾花卉数据集，是一类多重变量分析的数据集。KNeighborsClassifier的使用【知道】algorithm（auto,ball_tree, kd_tree, brute） – 选择什么样的算法进行计算。
复制链接

扫一扫