目录
1.3.1 曼哈顿距离(Manhattan Distance)
1.3.2 切比雪夫距离(Chebyshev distance)
1.3.3 闵式距离(也称为闵可夫斯基距离,Minkowski Distance)
5 特征预处理(FeaturePreprocessing)(特征缩放)
5.1 归一化(Normalization)(Min-Max缩放)
5.2 标准化(Standardization)(Z-score标准化)
1 核心思想
KNN(K-Nearest Neighbors)是一种基本的机器学习分类和回归算法。其核心思想是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。
1.1样本相似性
样本都是属于一个任务数据集的,样本距离越近则越相似
1.2欧氏距离(Euclidean Distance)
欧氏距离(Euclidean Distance)是最常见的距离度量方式之一,用于在多维空间中计算两点之间的直线距离。
二维:a(x1,y1) b(x2,y2)
三维:a(x1,y1,z1) b(x2,y2,z2)
多维:a(x11,x12,....,x1n)b(x21,x22,....,x2n)
在机器学习和数据挖掘中,欧氏距离常用于KNN(K-Nearest Neighbors)等算法中,用于度量样本之间的相似性或距离。然而,需要注意的是,欧氏距离在处理高维数据时可能会受到“维数灾难”的影响,即在高维空间中,两点之间的欧氏距离可能会变得非常接近,导致算法的性能下降。此外,欧氏距离对数据的尺度敏感,因此在应用之前通常需要对数据进行标准化或归一化处理。
1.3其他距离
1.3.1 曼哈顿距离(Manhattan Distance)
曼哈顿距离的名字来源于规划为方型建筑区块的城市(如曼哈顿),其中从一个地点到另一个地点需要沿着街区行走,即只能沿着水平和垂直方向移动,而不能直接穿越建筑物。因此,曼哈顿距离可以理解为从一个点到另一个点在南北方向和东西方向上所走的距离之和。
公式:
a(x11,x12,....,x1n)b(x21,x22,....,x2n)
与欧氏距离相比,曼哈顿距离不受数据尺度的影响,因此在某些情况下可能更加合适。然而,曼哈顿距离对于数据的旋转和映射不敏感,即当坐标轴发生旋转或映射时,曼哈顿距离可能会发生变化。因此,在选择使用曼哈顿距离还是欧氏距离时,需要根据具体的应用场景和数据特点进行选择。
1.3.2 切比雪夫距离(Chebyshev distance)
切比雪夫距离得名自俄罗斯数学家切比雪夫。在二维空间中,和一点的切比雪夫距离为定值的点会形成一个正方形,而在更高维度的空间中,这些点会形成一个超立方体。
切比雪夫距离特别适用于多维空间中的距离测量,它通过定义最大坐标距离来衡量两点之间的“距离”,这在一些特殊应用中可能很有用,例如在国际象棋中,王从一个位置走到另一个位置需要的步数恰为两个位置之间的切比雪夫距离,因此切比雪夫距离也称为棋盘距离。
公式:
a(x11,x12,....,x1n)b(x21,x22,....,x2n)
1.3.3 闵式距离(也称为闵可夫斯基距离,Minkowski Distance)
闵式距离的特点是将各个分量的量纲,即“单位”当作相同看待,没有考虑各个量的分布(如期望、方差等)可能不同。
公式:
a(x11,x12,....,x1n)b(x21,x22,....,x2n)