k近邻算法

最新推荐文章于 2022-08-13 20:13:46 发布

gulie8

最新推荐文章于 2022-08-13 20:13:46 发布

阅读量221

点赞数

分类专栏：数据挖掘与机器学习

本文链接：https://blog.csdn.net/gulie8/article/details/118811977

版权

K近邻算法常用于多类别数据的分类问题，如葡萄酒分类、电影类别划分和人脸识别。该算法基于新样本与已有数据中最近的K个数据点的相似性进行预测，多数归属类别决定新样本类别。虽然简单易懂，但当样本量大时，计算量和拟合速度成为其局限性。

摘要由CSDN通过智能技术生成

'''当有多种类别数据时，我们常常面临着对新加入的数据进行分类的问题，例如，根据口味和色泽划分新的葡萄酒的类别，根据内容
形式划分新上映电影的类别，根据过往人脸特征进行人脸识别等。这些问题都可以采用机器学习中非常经典的K近邻算法来解决。'''

'''K近邻算法的原理非常简单：对于一个新样本，K近邻算法的目的就是在已有数据中寻找与它最相似的K个数据，或者说“离它最近”
的K个数据，如果这K个数据大多数属于某个类别，则该样本也属于这个类别。'''

''' k近邻算法分类模型的代码实现 '''
#读取原始数据并提取特征变量和目标变量
import pandas as pd
redwine_df=pd.read_excel(r'd:\Users\zhanggl21\Desktop\data快捷\python大数据分析与机器学习商业案例实战---源代码汇总-2020-06-04\python大数据分析与机器学习商业案例实战源代码汇总\第7章 K近邻算法\源代码汇总_Pycharm\葡萄酒.xlsx')
redwine_df.head()
x_train=redwine_df[['酒精含量(%)','苹果酸含量(%)']]
y_train=redwine_df['分类']

#模型的搭建和使用
from sklearn.neighbors import KNeighborsClassifier as KNN
knn=KNN(n_neighbors=3)#设置邻近参数n_neighbors，也就是K值，这里设置其值为3，即选取最近的3个样本，如果不设置则取默认值5
knn.fit(x_train,y_train)
#运用训练好的模型进行预测
x_test=[[