机器学习算法详解：K近邻法

洞深视界

已于 2023-09-23 22:33:23 修改

阅读量160

点赞数 1

文章标签：机器学习算法人工智能

于 2023-09-23 22:30:09 首次发布

未经授权禁止以任何方式转载

本文链接：https://blog.csdn.net/DeepViewInsight/article/details/133220224

版权

机器学习是计算机科学领域的一个热门话题，它通过让计算机从数据中学习，从而实现各种任务。在机器学习中，有许多强大的算法，其中之一是K近邻法（K-Nearest Neighbors，简称KNN）。KNN是一种用于分类和回归问题的监督学习算法，它直观而简单，适合作为入门级的机器学习算法。本文将详细介绍KNN算法，无论你是初学者还是有经验的数据科学家，都能够从中获益。

什么是K近邻法？

K近邻法，顾名思义，是基于“邻居”的一种算法。它的核心思想是：如果一个样本在特征空间中的K个最接近的样本中的大多数属于某一个类别，那么该样本也属于这个类别。KNN算法可以用于分类问题和回归问题，但在本文中，我们将主要关注其在分类问题上的应用。

让我们来理解一下KNN的工作原理。假设有一个已知的数据集，包含若干个数据点，每个数据点都有一些特征和一个类别标签。当你提供一个新的数据点时，KNN算法会在数据集中找到离这个新数据点最近的K个数据点。然后，它将这K个数据点中的多数类别作为新数据点的类别。

这里有两个关键的参数需要我们定义：

K的值：确定了我们要考虑多少个最近邻的数据点。
距离度量：用于衡量数据点之间的距离，常见的度量方法包括欧氏距离、曼哈顿距离等。

KNN的工作方式非常简单，这也是它被广泛应用的原因之一。现在，让我们来看一个实际的例子，演示KNN如何工作。

KNN的示例

假设我们有一个关于水果的数据集，其中包含两个特征：果重和果径。我们的任务是根据这两个特征来预测水果是橙子还是苹果。我们已经有了以下数据集：

水果	重量（克）	直径（厘米）
橙子	150	7
橙子	170	7.5
橙子	140	6.5
苹果	130	6
苹果	160	7.2
苹果	155	7

现在，假设我们有一个新的水果，重量为145克，直径为6.8厘米，我们要用KNN算法来预测它是橙子还是苹果。首先，让我们使用Python代码来实现这个KNN分类器。

import numpy as np

# 已知的水果数据
X = np.array([[150, 7],
              [170, 7.5],
              [140, 6.5],
              [130, 6],
              [160, 7.2],
              [155, 7]])

# 对应的水果类别
y = np.array(['橙子', '橙子', '橙子', '苹果', '苹果', '苹果'])

# 新水果的特征
new_fruit = np.array([145, 6.8])

# 设置K的值
k = 3

# 计算新水果与已知数据点的距离
distances = np.sqrt(np.sum((X - new_fruit) ** 2, axis=1))

# 找到距离最近的K个数据点的索引
nearest_indices = np.argsort(distances)[:k]

# 找到K个最近邻对应的类别
nearest_labels = y[nearest_indices]

# 使用投票机制确定新水果的类别
from collections import Counter
votes = Counter(nearest_labels)
predicted_fruit = votes.most_common(1)[0][0]

print(f"预测的水果类别为：{predicted_fruit}")

在上面的代码中，我们首先计算了新水果与已知数据点的距离，然后找到了距离最近的K个数据点。最后，我们使用投票机制来确定新水果的类别。在这个例子中，我们设置K=3，所以我们找到了3个最近的数据点，它们都属于橙子类别，因此我们预测这个新水果是橙子。

这只是一个简单的示例，展示了KNN如何在分类问题中工作。在实际应用中，你可以使用更大的数据集和更多的特征来训练KNN分类器，以处理更复杂的任务。

KNN的优点和缺点

KNN算法具有一些明显的优点和缺点，让我们来看一看：

优点：

简单易懂：KNN是一种直观且易于理解的算法，适用于初学者。
无需训练：KNN是一种无需显式训练的算法，它在预测时直接使用已知数据。
非参数化：KNN不假设数据分布，适用于各种类型的数据。

缺点：

计算开销大：在大型数据集上，KNN的计算开销可能会很大，因为它需要计算新数据点与所有已知数据点的距离。
对异常值敏感：KNN对异常值非常敏感，这可能会导致错误的预测结果。
需要选择合适的K值：K的选择会影响预测结果，需要进行调优。

总结

K近邻法是一种简单而直观的机器学习算法，用于解决分类和回归问题。它的核心思想是根据邻居的投票来确定新数据点的类别。虽然KNN有一些限制，但它仍然是一个有用的工具，特别是在小型数据集和初步探索数据时。

如果你对KNN算法感兴趣，可以尝试在不同的数据集上应用它，并探索不同的K值对结果的影响。通过实践，你将更好地理解KNN的工作原理以及如何在实际项目中使用它。希望这篇文章能够帮助你入门KNN算法，并启发你进一步深入学习机器学习领域的知识。

Happy learning! 🚀

洞深视界

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习算法详解：K近邻法

K近邻法，顾名思义，是基于“邻居”的一种算法。它的核心思想是：如果一个样本在特征空间中的K个最接近的样本中的大多数属于某一个类别，那么该样本也属于这个类别。KNN算法可以用于分类问题和回归问题，但在本文中，我们将主要关注其在分类问题上的应用。让我们来理解一下KNN的工作原理。假设有一个已知的数据集，包含若干个数据点，每个数据点都有一些特征和一个类别标签。当你提供一个新的数据点时，KNN算法会在数据集中找到离这个新数据点最近的K个数据点。然后，它将这K个数据点中的多数类别作为新数据点的类别。
复制链接

扫一扫