Python scikit-learn，分类，K近邻算法，KNN，KNeighborsClassifier

最新推荐文章于 2024-08-17 19:34:58 发布

houyanhua1

最新推荐文章于 2024-08-17 19:34:58 发布

阅读量1.8k

点赞数

分类专栏： Python+ 机器学习文章标签： Python KNN K近邻

本文链接：https://blog.csdn.net/houyanhua1/article/details/87933238

版权

本文介绍了Python中使用scikit-learn库实现K近邻(KNN)分类算法的基本思想和步骤。内容包括特征空间中的距离计算、特征标准化的重要性，以及K值选择对模型稳定性与准确性的影响。通过示例代码`demo.py`展示了KNN的实际应用，探讨了K值选取的策略及其可能带来的问题。

摘要由CSDN通过智能技术生成

K近邻(k-Nearest Neighbor，KNN)分类算法思路：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。

在计算距离之前，需要对特征值进行标准化(避免某个特征的重要性过大或过小)。

demo.py（分类，K近邻算法应用实例）：

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.preprocessing import StandardScaler


# K近邻算法，预测用户入住哪个酒店

# 读取数据
data = pd.read_csv("./data/FBlocation/train.csv")
# print(data.head(3))
'''
row_id    x      y    accuracy   time     place_id
   0   0.7941  9.0809    54     470702   8523