机器学习（二） ----------K近邻算法（KNN）+特征预处理+交叉验证网格搜索

最新推荐文章于 2024-11-13 16:42:22 发布

一九11111

最新推荐文章于 2024-11-13 16:42:22 发布

阅读量1.9k

点赞数 34

分类专栏：机器学习（传统机器学习）文章标签：机器学习人工智能算法

本文链接：https://blog.csdn.net/2301_77539454/article/details/138463106

版权

1 核心思想

1.1样本相似性

1.2欧氏距离（Euclidean Distance）

1.3其他距离

1.3.1 曼哈顿距离（Manhattan Distance）

1.3.2 切比雪夫距离（Chebyshev distance）

1.3.3 闵式距离（也称为闵可夫斯基距离，Minkowski Distance）

5 特征预处理（FeaturePreprocessing）（特征缩放）

5.1 归一化（Normalization）（Min-Max缩放）

5.2 标准化（Standardization）（Z-score标准化）

6.1 交叉验证（Cross Validation）：

6.2 网格搜索（GridSearch）：

6.3 交叉验证网格搜索API

7 鸢尾花案例

1 核心思想

KNN（K-Nearest Neighbors）是一种基本的机器学习分类和回归算法。其核心思想是：如果一个样本在特征空间中的k个最相似（即特征空间中最邻近）的样本中的大多数属于某一个类别，则该样本也属于这个类别。

1.1样本相似性

样本都是属于一个任务数据集的，样本距离越近则越相似

1.2欧氏距离（Euclidean Distance）

欧氏距离（Euclidean Distance）是最常见的距离度量方式之一，用于在多维空间中计算两点之间的直线距离。

二维：a(x1，y1) b(x2，y2)

${d_{ab}}^{} =\sqrt{\left ( {x_{1}}^{}-x_2 \right )^2 + \left ( y_1 - y_2 \right )^2}$

三维：a(x1，y1，z1) b(x2，y2，z2)

${d_{ab}}^{} = \sqrt{\left ( {x_1{}}^{} -x_2 \right)^2 + \left ( y_1 -y_2 \right )^2 + \left ( z_1 -z_2 \right )^2}$

多维：a（x11,x12,....,x1n）b（x21,x22,....,x2n）

${d_{ab}}^{} =\sqrt{\sum_{k=1}^{n}\left ( x_{1k} -x_{2k} \right )^2}$

在机器学习和数据挖掘中，欧氏距离常用于KNN（K-Nearest Neighbors）等算法中，用于度量样本之间的相似性或距离。然而，需要注意的是，欧氏距离在处理高维数据时可能会受到“维数灾难”的影响，即在高维空间中，两点之间的欧氏距离可能会变得非常接近，导致算法的性能下降。此外，欧氏距离对数据的尺度敏感，因此在应用之前通常需要对数据进行标准化或归一化处理。