机器学习6---k近邻算法

最新推荐文章于 2023-10-09 21:11:23 发布

weixin_43543210

最新推荐文章于 2023-10-09 21:11:23 发布

阅读量163

点赞数

本文链接：https://blog.csdn.net/weixin_43543210/article/details/107642363

版权

分类算法-k近邻算法（KNN算法）

定义

如果一个样本在特征空间中的k个最近似（即特征空间中最近邻）的样本中的大多数属于某一个类别，则该样本也属于这个类别。
思想：相似样本的特征值应该是相近的。
距离计算公式
两个样本之间的欧氏距离：

注意，k-近邻算法，需要对数据进行标准化处理！

sklearn k-近邻算法API

sklearn.neighbors.KNeighborsClassifier(n_neighbors = 5, algorithm = “auto”)

n_neighbors：int，可选，默认为5；k_neighbors查询默认使用的neighbor数量；
algorithm：{‘auto’,“ball_tree”,“kd_tree”,“brute”},可选用于计算最近邻的算法。"ball_tree"将会使用BallTree,"kd_tree"将使用KDTree，"auto"将尝试根据传递给fit方法的值来决定最合适的算法。（不同实现方式影响效率）

k-近邻算法的优缺点

优点：简单，易于理解和实现；无需估计参数，无需训练；
缺点：
（1）懒惰算法，对测试样本分类时的计算量大，内存开销大；
（2）必须指定k值，k值选择不当则分类精度不能保证（k取值很小，容易受异常点影响；k取值很大，最近邻的数据太多，几个类别比例可能相当，不好分类；类别波动）。
使用场景：小数据场景。

例1

在这里插入图片描述

例2

在这里插入图片描述
实例流程：

数据处理流程：
（1）缩小数据集范围，便于处理（节省练习时间）；
（2）处理日期数据并选择相关日期数据添加为特征值；
（3）将签到少于n个用户的位置删除。

1. 读取数据

data = pd.read_csv("./data/train.csv")
print(data.head(10))  # 打印前10行

运行结果：
在这里插入图片描述
2. 处理数据

# 2. 处理时间数据

# 将字符型数据解析成datatime对象
time_value = pd.to_datetime(data["time"], unit

最低0.47元/天解锁文章

weixin_43543210

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
机器学习6---k近邻算法

k近邻分类算法
复制链接

扫一扫

机器学习6---k近邻算法

分类算法-k近邻算法（KNN算法）

定义

sklearn k-近邻算法API

k-近邻算法的优缺点

例1

例2

“相关推荐”对你有帮助么？