K-近邻算法（KNN）

置顶 hyk今天写算法了吗

已于 2022-06-29 18:29:45 修改

阅读量813

点赞数 1

分类专栏：机器学习与深度学习文章标签： python 机器学习近邻算法

于 2022-03-06 11:46:39 首次发布

本文链接：https://blog.csdn.net/m0_52000372/article/details/123307409

版权

机器学习与深度学习专栏收录该内容

18 篇文章 3 订阅

订阅专栏

本文深入介绍了K近邻(KNN)算法的基本原理，包括定义、距离公式和实例分析。通过电影类型预测展示了KNN的应用，并详细解释了sklearn库中的KNeighborsClassifier API。此外，还提供了一个实际案例——预测签到位置，分析了数据处理步骤和关键代码。最后，总结了KNN算法的优缺点及适用场景。

摘要由CSDN通过智能技术生成

一、原理

1.定义

如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。
来源：KNN算法最早是由Cover和Hart提出的一种分类算法

2. 距离公式

两个样本的距离可以通过如下公式计算，又叫欧式距离
在这里插入图片描述

3.举例分析

电影类型分析 假设我们有现在几部电影
在这里插入图片描述
其中？号电影不知道类别，如何去预测？我们可以利用K近邻算法的思想，利用对应特征与已知几个电影特征的距离来判断属于哪一类别。

二、API

sklearn.neighbors.KNeighborsClassifier(n_neighbors=5,algorithm='auto')

部分参数讲解：
n_neighbors：int,可选（默认= 5），KNN算法查询默认使用的邻居数

algorithm：{‘auto’，‘ball_tree’，‘kd_tree’，‘brute’}，可选用于计算最近邻居的算法：‘ball_tree’将会使用 BallTree，‘kd_tree’将使用 KDTree。‘auto’将尝试根据传递给fit方法的值来决定最合适的算法。 (不同实现方式影响效率)

三、实际案例：预测签到位置

1.题目要求

在这里插入图片描述
数据介绍：将根据用户的位置，准确性和时间戳预测用户正在查看的业务。
train.csv，test.csv
row_id：登记事件的ID
xy：坐标
准确性：定位准确性
时间：时间戳
place_id：业务的ID，这是您预测的目标
官网：https://www.kaggle.com/navoshta/grid-knn/data