数据处理和分析之分类算法：K近邻算法(KNN)：距离度量方法

kkchenkx

于 2024-09-28 07:42:04 发布

阅读量456

点赞数 19

分类专栏：数据挖掘文章标签：分类近邻算法数据挖掘

本文链接：https://blog.csdn.net/2401_87715305/article/details/142608764

版权

数据挖掘专栏收录该内容

22 篇文章 0 订阅

订阅专栏

数据处理和分析之分类算法：K近邻算法(KNN)：距离度量方法

在这里插入图片描述

数据处理和分析之分类算法：K近邻算法 (KNN)：距离度量方法

简介

K近邻算法的基本概念

K近邻算法（K-Nearest Neighbors, KNN）是一种基于实例的学习方法，用于分类和回归。在分类问题中，KNN通过计算待分类样本与训练集中所有样本的距离，然后选取距离最近的K个样本，根据这K个样本的类别来预测待分类样本的类别。KNN算法简单直观，易于理解和实现，但计算量大，特别是在数据量庞大的情况下。

KNN算法的工作原理

计算距离：对于每一个训练样本，计算其与待分类样本之间的距离。常用的距离度量方法有欧氏距离、曼哈顿距离、切比雪夫距离等。
选取最近的K个样本：根据计算出的距离，选取距离最近的K个训练样本。
类别决策：对这K个样本的类别进行统计，将出现次数最多的类别作为待分类样本的预测类别。

距离度量在KNN中的重要性

距离度量方法的选择直接影响KNN算法的性能。不同的距离度量方法可能会导致不同的分类结果。例如，欧氏距离适用于数据分布均匀的情况，而曼哈顿距离在处理高维数据时可能更有效。因此，理解并选择合适的距离度量方法是KNN算法应用的关键。

示例：使用Python实现KNN分类

假设我们有以下数据集，其中包含两个特征（X1和X2）和两个类别（A和B）：

X1	X2	类别
1	2	A
2	3	A
3	4	B
4	5	B
5	6	B

我们将使用这个数据集来预测一个新的样本（X1=2.5, X2=3.5）的类别。

import numpy as np
from collections import Counter
from scipy.spatial import distance

# 训练数据集
dataset = {
    'A': np.array([[1, 2], [2, 3]]),
    'B': np.array([[3, 4], [4, 5], [5, 6]])
}

# 待分类样本
sample = np.array([2.5, 3.5])

# K值
k = 3

# 计算距离并选取最近的K个样本
def k_nearest_neighbors(data, predict, k):
    distances = []
    for group in data:
        for features in data[group]:
            # 使用欧氏距离
            dist = distance.euclidean(features, predict)
            distances.append([dist, group])
    # 对距离进行排序并选取最近的K个样本
    distances = sorted(distances)
    neighbors = distances[:k]
    # 统计最近的K个样本的类别
    class_result = Counter([n[1] for n in neighbors])
    # 返回出现次数最多的类别
    return class_result.most_common(1)[0][0]

# 预测
prediction = k_nearest_neighbors(dataset, sample, k)
print(f'预测类别：{prediction}')

代码解释

数据准备：我们首先定义了训练数据集dataset，其中包含两个类别A和B，每个类别有若干个样本，每个样本有两个特征X1和X2。
定义KNN函数：k_nearest_neighbors函数接收数据集、待分类样本和K值作为参数。函数内部首先计算待分类样本与训练集中所有样本的距离，然后选取距离最近的K个样本，最后统计这K个样本的类别并返回出现次数最多的类别。
预测：我们调用k_nearest_neighbors函数，传入数据集、待分类样本和K值，得到预测结果并打印。

在这个例子中，我们使用了欧氏距离作为距离度量方法。如果数据集的特征分布不均匀，可能需要考虑使用其他距离度量方法，如曼哈顿距离或切比雪夫距离，以获得更准确的分类结果。

数据处理和分析之分类算法：K近邻算法 (KNN)：距离度量方法

距离度量方法

欧氏距离

原理
欧氏距离是最直观的距离度量方法，它在多维空间中测量两点之间的直线距离。对于两个点 $A(x_1, y_1)$ 和 $B(x_2, y_2)$ ，在二维空间中，欧氏距离 $d$ 可以通过公式 $\sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}$ 来计算。在多维空间中，公式可以扩展为 $\sqrt{\sum_{i=1}^{n}(x_{2i} - x_{1i})^2}$ 。

代码示例

import numpy as np

def euclidean_distance(point1, point2):
    """
    计算两个多维点之间的欧氏距离。
    
    参数:
    point1 -- 第一个点的坐标，numpy数组形式。
    point2 -- 第二个点的坐标，numpy数组形式。
    
    返回:
    distance -- 两点之间的欧氏距离。
    """
    distance = np.sqrt(np.sum((point1 - point2) ** 2))
    return distance

# 示例数据
pointA = np.array([1, 2, 3])
pointB = np.array([4, 5, 6])

# 计算距离
distance = euclidean_distance(pointA, pointB)
print("欧氏距离:", distance)

曼哈顿距离

原理
曼哈顿距离，也称为城市街区距离，是在网格布局中测量两点之间的距离，即沿着网格的边移动。对于两个点 $A(x_1, y_1)$ 和 $B(x_2, y_2)$ ，曼哈顿距离 $d$ 可以通过公式 $d = |x_2 - x_1| + |y_2 - y_1|$ 来计算。在多维空间中，公式可以扩展为 $\sum_{i=1}^{n}|x_{2i} - x_{1i}|$ 。

代码示例

def manhattan_distance(point1, point2):
    """
    计算两个多维点之间的曼哈顿距离。
    
    参数:
    point1 -- 第一个点的坐标，numpy数组形式。
    point2 -- 第二个点的坐标，numpy数组形式。
    
    返回:
    distance -- 两点之间的曼哈顿距离。
    """
    distance = np.sum(np.abs(point1 - point2))
    return distance

# 示例数据
pointA = np.array([1, 2, 3])
pointB = np.array([4, 5, 6])

# 计算距离
distance = manhattan_distance(pointA, pointB)
print("曼哈顿距离:", distance)

闵可夫斯基距离

原理
闵可夫斯基距离是欧氏距离和曼哈顿距离的泛化，通过一个参数 $p$ 来控制距离的计算方式。当 $p = 1$ 时，闵可夫斯基距离退化为曼哈顿距离；当 $p = 2$ 时，它退化为欧氏距离。对于两个点 $A(x_1, y_1)$ 和 $B(x_2, y_2)$ ，闵可夫斯基距离 $d$ 可以通过公式 $(\sum_{i=1}^{n}|x_{2i} - x_{1i}|^p)^{1/p}$ 来计算。

代码示例

def minkowski_distance(point1, point2, p=3):
    """
    计算两个多维点之间的闵可夫斯基距离。
    
    参数:
    point1 -- 第一个点的坐标，numpy数组形式。
    point2 -- 第二个点的坐标，numpy数组形式。
    p -- 闵可夫斯基距离的参数，控制距离的计算方式。
    
    返回:
    distance -- 两点之间的闵可夫斯基距离。
    """
    distance = np.power(np.sum(np.power(np.abs(point1 - point2), p)), 1/p)
    return distance

# 示例数据
pointA = np.array([1, 2, 3])
pointB = np.array([4, 5, 6])

# 计算距离
distance = minkowski_distance(pointA, pointB, p=3)
print("闵可夫斯基距离 (p=3):", distance)

切比雪夫距离

原理
切比雪夫距离，也称为棋盘距离，测量的是两个点之间在各维度上最大差异的绝对值。对于两个点 $A(x_1, y_1)$ 和 $B(x_2, y_2)$ ，切比雪夫距离 $d$ 可以通过公式 $d = \max(|x_2 - x_1|, |y_2 - y_1|)$ 来计算。在多维空间中，公式可以扩展为 $d = \max(|x_{2i} - x_{1i}|)$ 。

代码示例

def chebyshev_distance(point1, point2):
    """
    计算两个多维点之间的切比雪夫距离。
    
    参数:
    point1 -- 第一个点的坐标，numpy数组形式。
    point2 -- 第二个点的坐标，numpy数组形式。
    
    返回:
    distance -- 两点之间的切比雪夫距离。
    """
    distance = np.max(np.abs(point1 - point2))
    return distance

# 示例数据
pointA = np.array([1, 2, 3])
pointB = np.array([4, 5, 6])

# 计算距离
distance = chebyshev_distance(pointA, pointB)
print("切比雪夫距离:", distance)

余弦相似度

原理
余弦相似度用于测量两个非零向量之间的角度余弦值，从而判断它们之间的相似度。对于两个向量 $A$ 和 $B$ ，余弦相似度 $cos(\theta)$ 可以通过公式 $cos(\theta) = \frac{A \cdot B}{||A|| ||B||}$ 来计算，其中 $\cdot B$ 表示向量的点积， $∣∣ A ∣∣$ 和 $∣∣ B ∣∣$ 分别表示向量 $A$ 和 $B$ 的模。

代码示例

def cosine_similarity(vector1, vector2):
    """
    计算两个向量之间的余弦相似度。
    
    参数:
    vector1 -- 第一个向量，numpy数组形式。
    vector2 -- 第二个向量，numpy数组形式。
    
    返回:
    similarity -- 两个向量之间的余弦相似度。
    """
    dot_product = np.dot(vector1, vector2)
    norm_vector1 = np.linalg.norm(vector1)
    norm_vector2 = np.linalg.norm(vector2)
    similarity = dot_product / (norm_vector1 * norm_vector2)
    return similarity

# 示例数据
vectorA = np.array([3, 4, 5])
vectorB = np.array([1, 2, 3])

# 计算相似度
similarity = cosine_similarity(vectorA, vectorB)
print("余弦相似度:", similarity)

以上距离度量方法在K近邻算法中扮演着关键角色，它们帮助算法确定数据点之间的相似性，从而进行分类或回归预测。选择哪种距离度量方法取决于具体的应用场景和数据特征。

KNN算法的实现步骤

数据预处理

在应用KNN算法之前，数据预处理是一个关键步骤。这包括数据清洗、缺失值处理、数据标准化或归一化等。数据标准化或归一化是特别重要的，因为KNN算法基于距离度量，如果特征尺度差异过大，将会影响距离计算的准确性。

示例代码

假设我们有以下数据集：

特征1	特征2	类别
1	1	A
2	2	A
8	8	B
9	9	B

我们将使用Python的scikit-learn库进行数据预处理：

from sklearn.preprocessing import StandardScaler
import numpy as np

# 原始数据
data = np.array([[1, 1], [2, 2], [8, 8], [9, 9]])
labels = ['A', 'A', 'B', 'B']

# 数据标准化
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

print("原始数据：\n", data)
print("标准化后的数据：\n", data_scaled)

解释

上述代码中，我们首先导入了StandardScaler类和numpy库。然后，我们创建了一个原始数据集data和对应的类别标签labels。使用StandardScaler对数据进行标准化处理，使得每个特征的均值为0，标准差为1。

选择合适的K值

K值的选择对KNN算法的性能至关重要。较小的K值容易受到噪声的影响，而较大的K值则可能包含其他类别的点，影响分类的准确性。通常，K值的选择可以通过交叉验证来确定。

示例代码

使用GridSearchCV来选择最佳的K值：

from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier

# 创建KNN分类器
knn = KNeighborsClassifier()

# 定义要搜索的K值范围
param_grid = {'n_neighbors': np.arange(1, 30)}

# 使用GridSearchCV进行交叉验证
grid = GridSearchCV(knn, param_grid, cv=5)
grid.fit(data_scaled, labels)

# 输出最佳K值
print("最佳K值：", grid.best_params_)

解释

在代码中，我们首先创建了一个KNeighborsClassifier实例。然后，定义了一个参数网格param_grid，其中包含了我们想要搜索的K值范围。使用GridSearchCV进行5折交叉验证，找到最佳的K值。

计算距离

KNN算法基于距离度量来确定最近邻。常见的距离度量方法有欧氏距离、曼哈顿距离和闵可夫斯基距离等。

示例代码

计算两个点之间的欧氏距离：

import math

# 定义两个点
point1 = [1, 1]
point2 = [2, 2]

# 计算欧氏距离
distance = math.sqrt((point1[0] - point2[0])**2 + (point1[1] - point2[1])**2)
print("欧氏距离：", distance)

解释

代码中，我们定义了两个点point1和point2，然后使用欧氏距离公式计算了这两个点之间的距离。

确定K个最近邻

在计算了所有点之间的距离后，我们需要确定K个最近邻。这通常通过排序距离并选择前K个最小距离的点来实现。

示例代码

找到一个点的K个最近邻：

from sklearn.neighbors import NearestNeighbors

# 定义要查找的点
query_point = [1, 1]

# 创建NearestNeighbors实例
nbrs = NearestNeighbors(n_neighbors=3, algorithm='ball_tree').fit(data_scaled)

# 找到K个最近邻
distances, indices = nbrs.kneighbors([query_point])

print("最近邻的索引：", indices)
print("最近邻的距离：", distances)

解释

在代码中，我们首先定义了要查找的点query_point。然后，使用NearestNeighbors类来找到K个最近邻。n_neighbors参数指定了要查找的最近邻的数量，algorithm参数指定了查找算法。最后，kneighbors方法返回了最近邻的索引和距离。

分类决策

确定了K个最近邻后，我们可以通过投票机制来决定查询点的类别。即，查询点将被分类为K个最近邻中出现次数最多的类别。

示例代码

基于K个最近邻进行分类决策：

from collections import Counter

# 定义最近邻的类别
neighbors_labels = ['A', 'A', 'B']

# 使用Counter进行投票
counter = Counter(neighbors_labels)
most_common_label = counter.most_common(1)[0][0]

print("分类决策结果：", most_common_label)

解释

在代码中，我们首先定义了最近邻的类别neighbors_labels。然后，使用collections.Counter类来统计每个类别的出现次数。most_common方法返回了出现次数最多的类别，即我们的分类决策结果。

通过以上步骤，我们可以实现KNN算法的基本流程，包括数据预处理、选择K值、计算距离、确定最近邻和分类决策。这些步骤是KNN算法成功应用的关键，需要根据具体的数据集和问题进行适当的调整和优化。

KNN算法的应用案例

手写数字识别

K近邻算法在手写数字识别中是一种非常直观且有效的方法。它通过计算待分类数字图像与训练集中所有数字图像的距离，然后选取距离最近的K个训练样本，根据这些样本的类别来预测待分类数字的类别。

示例代码

假设我们使用MNIST数据集，这是一个包含手写数字的大型数据库，常用于训练各种图像处理系统。

import numpy as np
from sklearn.datasets import fetch_openml
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix

# 加载MNIST数据集
mnist = fetch_openml('mnist_784')
X, y = mnist['data'], mnist['target']

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建KNN分类器实例
knn = KNeighborsClassifier(n_neighbors=3)

# 训练模型
knn.fit(X_train, y_train)

# 预测测试集
y_pred = knn.predict(X_test)

# 输出分类报告和混淆矩阵
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

代码解释

数据加载：使用fetch_openml函数从开放数据源中加载MNIST数据集。
数据分割：将数据集分为训练集和测试集，其中测试集占20%。
模型创建：创建一个KNN分类器实例，这里选择K=3。
模型训练：使用训练集数据和标签训练KNN模型。
模型预测：对测试集进行预测，得到预测标签。
性能评估：通过混淆矩阵和分类报告来评估模型的性能。

文本分类

KNN算法同样可以应用于文本分类，通过将文本转换为向量（如TF-IDF向量），然后计算这些向量之间的距离，来判断文本的类别。

示例代码

使用sklearn中的TfidfVectorizer和KNeighborsClassifier来实现文本分类。

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report

# 加载20newsgroups数据集
newsgroups = fetch_20newsgroups(subset='all')
X, y = newsgroups.data, newsgroups.target

# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 创建TF-IDF向量化器
vectorizer = TfidfVectorizer()
X_train_transformed = vectorizer.fit_transform(X_train)
X_test_transformed = vectorizer.transform(X_test)

# 创建KNN分类器实例
knn = KNeighborsClassifier(n_neighbors=5)

# 训练模型
knn.fit(X_train_transformed, y_train)

# 预测测试集
y_pred = knn.predict(X_test_transformed)

# 输出分类报告
print(classification_report(y_test, y_pred))

代码解释

数据加载：使用fetch_20newsgroups函数加载20个新闻组的数据集。
数据分割：将数据集分为训练集和测试集，其中测试集占20%。
向量化：使用TfidfVectorizer将文本数据转换为TF-IDF向量。
模型创建：创建一个KNN分类器实例，这里选择K=5。
模型训练：使用训练集的TF-IDF向量和标签训练KNN模型。
模型预测：对测试集的TF-IDF向量进行预测，得到预测标签。
性能评估：通过分类报告来评估模型的性能。

KNN算法的优缺点

KNN算法的优点

K近邻算法(K-Nearest Neighbors, KNN)是一种基于实例的学习方法，它在分类和回归任务中都有应用。KNN算法的优点主要体现在以下几个方面：

简单直观：KNN算法的原理非常直观，容易理解和实现。它不需要训练模型，只需要在预测时计算测试样本与训练样本之间的距离，然后根据最近的K个邻居的类别来预测测试样本的类别。
无需训练过程：与许多其他机器学习算法不同，KNN在训练阶段不需要构建模型，只需要将训练数据存储起来，这使得训练过程非常快速。
可以处理多分类问题：KNN算法可以很容易地扩展到多分类问题，只需要计算测试样本与训练样本之间的距离，然后根据最近的K个邻居的类别来预测测试样本的类别。
对异常值不敏感：由于KNN算法是基于多数投票的，因此对于异常值的敏感度较低，异常值对结果的影响较小。
可以处理非线性问题：KNN算法不需要假设数据的分布，因此可以处理非线性问题。

示例代码

假设我们有以下数据集，我们将使用KNN算法进行分类：

# 导入必要的库
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import numpy as np

# 创建数据集
X, y = make_classification(n_samples=100, n_features=2, n_informative=2, n_redundant=0, n_classes=2, random_state=1)

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建KNN分类器
knn = KNeighborsClassifier(n_neighbors=3)

# 训练模型
knn.fit(X_train, y_train)

# 预测
y_pred = knn.predict(X_test)

# 计算准确率
accuracy = np.mean(y_pred == y_test)
print(f"Accuracy: {accuracy}")

在这个例子中，我们使用了sklearn库中的make_classification函数来生成一个简单的二分类数据集。然后，我们使用train_test_split函数将数据集划分为训练集和测试集。接下来，我们创建了一个KNN分类器，并使用训练集对其进行训练。最后，我们使用测试集进行预测，并计算了预测的准确率。

KNN算法的缺点

尽管KNN算法具有上述优点，但它也有一些明显的缺点：

计算成本高：在预测阶段，KNN算法需要计算测试样本与所有训练样本之间的距离，这在数据量大时会变得非常耗时。
存储成本高：由于KNN算法需要存储所有的训练数据，因此在数据量大时，存储成本也会变得很高。
对K值的选择敏感：K值的选择对KNN算法的性能有显著影响。如果K值太小，模型可能会过拟合；如果K值太大，模型可能会欠拟合。
对数据的尺度敏感：如果特征的尺度不同，那么距离计算可能会受到尺度较大的特征的影响，因此在使用KNN算法之前，通常需要对数据进行标准化或归一化处理。
对不平衡数据集敏感：如果数据集中某些类别的样本数量远多于其他类别，那么KNN算法可能会偏向于样本数量较多的类别。

示例代码

为了展示KNN算法对K值选择的敏感性，我们可以使用以下代码：

# 创建KNN分类器，K值为1
knn1 = KNeighborsClassifier(n_neighbors=1)
knn1.fit(X_train, y_train)
y_pred1 = knn1.predict(X_test)

# 创建KNN分类器，K值为10
knn10 = KNeighborsClassifier(n_neighbors=10)
knn10.fit(X_train, y_train)
y_pred10 = knn10.predict(X_test)

# 计算准确率
accuracy1 = np.mean(y_pred1 == y_test)
accuracy10 = np.mean(y_pred10 == y_test)

print(f"Accuracy with K=1: {accuracy1}")
print(f"Accuracy with K=10: {accuracy10}")

在这个例子中，我们创建了两个KNN分类器，一个K值为1，另一个K值为10。然后，我们使用相同的训练集和测试集对这两个分类器进行训练和预测，并计算了预测的准确率。通过比较这两个准确率，我们可以看到K值的选择对KNN算法的性能有显著影响。

距离度量的选择与优化

影响距离度量选择的因素

在K近邻算法(KNN)中，距离度量方法的选择至关重要，它直接影响到算法的性能和分类的准确性。以下是选择距离度量方法时需要考虑的几个关键因素：

数据类型

数值型数据：通常使用欧氏距离或曼哈顿距离。
分类型数据：可能需要使用汉明距离或Jaccard相似度。
混合型数据：需要综合考虑，可能使用加权距离度量。

数据尺度

数据特征的尺度不同，可能需要进行标准化处理，以避免尺度大的特征主导距离计算。

数据分布

高维数据：在高维空间中，欧氏距离可能不再有效，因为所有点之间的距离趋于相等，此时可以考虑使用余弦相似度。
稀疏数据：对于稀疏数据，欧氏距离可能不是最佳选择，因为零值的特征在计算中会被忽略，可以考虑使用Jaccard相似度。

算法效率

某些距离度量可能计算成本更高，如计算余弦相似度时需要进行向量归一化，这在大数据集上可能影响算法的效率。

业务需求

业务场景和目标也可能影响距离度量的选择，例如在推荐系统中，可能更关注用户或物品之间的相似性，而非距离。

距离度量的优化策略

优化距离度量方法可以显著提高KNN算法的性能和准确性。以下是一些优化策略：

特征选择

通过特征选择，去除不相关或冗余的特征，可以减少计算距离时的维度，从而提高算法效率。

数据预处理

标准化：将数据特征缩放到相同的尺度，避免某些特征因尺度大而主导距离计算。
归一化：将数据特征转换到0-1范围内，同样是为了避免尺度影响。

使用更高效的距离度量

根据数据类型和分布选择更合适、计算成本更低的距离度量方法。

空间索引

使用空间索引结构，如kd树或球树，可以加速最近邻的搜索过程，减少距离计算的次数。

动态调整K值

根据数据集的大小和复杂度动态调整K值，可以优化分类的准确性。

示例：欧氏距离与曼哈顿距离的比较

假设我们有以下两个数据点：

point1 = [1, 2]
point2 = [4, 6]

我们可以使用Python的scipy库来计算这两个点之间的欧氏距离和曼哈顿距离：

import numpy as np
from scipy.spatial import distance

# 定义数据点
point1 = np.array([1, 2])
point2 = np.array([4, 6])

# 计算欧氏距离
euclidean_distance = distance.euclidean(point1, point2)
print("欧氏距离:", euclidean_distance)

# 计算曼哈顿距离
manhattan_distance = distance.cityblock(point1, point2)
print("曼哈顿距离:", manhattan_distance)

输出结果：

欧氏距离: 5.0
曼哈顿距离: 7

在这个例子中，我们可以看到，对于相同的两个点，欧氏距离和曼哈顿距离给出了不同的结果。欧氏距离考虑了两点之间的直线距离，而曼哈顿距离考虑了两点之间在坐标轴上的总距离。在实际应用中，根据数据的特性和业务需求选择合适的距离度量方法是关键。

示例：使用余弦相似度处理高维数据

假设我们有以下两个高维向量：

vector1 = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
vector2 = [10, 9, 8, 7, 6, 5, 4, 3, 2, 1]

我们可以使用scipy库来计算这两个向量之间的余弦相似度：

# 计算余弦相似度
cosine_similarity = 1 - distance.cosine(vector1, vector2)
print("余弦相似度:", cosine_similarity)

输出结果：

余弦相似度: -0.9999999999999998

在这个例子中，余弦相似度接近-1，表示两个向量在高维空间中几乎完全相反。余弦相似度在处理高维数据时，可以更有效地捕捉向量之间的方向关系，而不仅仅是距离。

通过这些示例和策略，我们可以看到，距离度量的选择和优化是KNN算法中一个不可忽视的环节，它需要根据具体的数据特性和业务需求来灵活调整。

kkchenkx

关注

19
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录