机器学习之路——KNN+交叉验证

qq_39623031

已于 2022-09-17 15:54:57 修改

阅读量2.7k

点赞数 3

文章标签：机器学习算法人工智能

于 2022-09-16 13:55:18 首次发布

本文链接：https://blog.csdn.net/qq_39623031/article/details/126886712

版权

本文介绍了K-近邻(KNN)算法的概念、工作原理及其在电影分类中的应用。详细阐述了如何在scikit-learn库中使用KNN算法，并探讨了K值的选择，提出通过学习曲线和交叉验证来确定最优K值。同时，文章还讲解了K折交叉验证的目的、思想和实现步骤，展示了其在模型选择中的重要作用。

摘要由CSDN通过智能技术生成

KNN分类模型

概念：
- 简单地说，K-近邻算法采用测量不同特征值之间的距离方法进行分类（k-Nearest Neighbor，KNN）

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-J5jO7hjT-1663307298830)(attachment:image.png)]

k值的作用
欧几里得距离(Euclidean Distance)

如何进行电影分类

众所周知，电影可以按照题材分类，然而题材本身是如何定义的?由谁来判定某部电影属于哪
个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在进行电影分类时必须要考虑的问
题。没有哪个电影人会说自己制作的电影和以前的某部电影类似，但我们确实知道每部电影在风格
上的确有可能会和同题材的电影相近。那么动作片具有哪些共有特征，使得动作片之间非常类似，
而与爱情片存在着明显的差别呢？动作片中也会存在接吻镜头，爱情片中也会存在打斗场景，我们
不能单纯依靠是否存在打斗或者亲吻来判断影片的类型。但是爱情片中的亲吻镜头更多，动作片中
的打斗场景也更频繁，基于此类场景在某部电影中出现的次数可以用来进行电影分类。

工作原理

存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一数据
与所属分类的对应关系。输人没有标签的新数据后，将新数据的每个特征与样本集中数据对应的
特征进行比较，然后算法提取样本集中特征最相似数据（最近邻）的分类标签。一般来说，我们
只选择样本数据集中前K个最相似的数据，这就是K-近邻算法中K的出处,通常K是不大于20的整数。
最后，选择K个最相似数据中出现次数最多的分类，作为新数据的分类。

回到前面电影分类的例子，使用K-近邻算法分类爱情片和动作片。有人曾经统计过很多电影的打斗镜头和接吻镜头，下图显示了6部电影的打斗和接吻次数。假如有一部未看过的电影，如何确定它是爱情片还是动作片呢？我们可以使用K-近邻算法来解决这个问题。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6rdoTJPF-1663307298838)(attachment:image.png)]

首先我们需要知道这个未知电影存在多少个打斗镜头和接吻镜头，上图中问号位置是该未知电影出现的镜头数图形化展示，具体数字参见下表。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fTpdsJlT-1663307298839)(attachment:image.png)]

即使不知道未知电影属于哪种类型，我们也可以通过某种方法计算出来。首先计算未知电影与样本集中其他电影的距离，如图所示。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aegxUldT-1663307298840)(attachment:image.png)]

现在我们得到了样本集中所有电影与未知电影的距离，按照距离递增排序，可以找到K个距离最近的电影。假定k=3，则三个最靠近的电影依次是California Man、He’s Not Really into Dudes、Beautiful Woman。K-近邻算法按照距离最近的三部电影的类型，决定未知电影的类型，而这三部电影全是爱情片，因此我们判定未知电影是爱情片。

在scikit-learn库中使用k-近邻算法

分类问题：from sklearn.neighbors import KNeighborsClassifier
鸢尾花分类的实现

import sklearn.datasets as datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

#1.捕获鸢尾花数据
iris = datasets.load_iris()

#2.提取样本数据
feature = iris['data']
target = iris['target']

#3.数据集进行拆分
x_train,x_test,y_train,y_test = train_test_split(feature,target,test_size=0.2,random_state=2020)

#4.观察数据集：看是否需要进行特征工程的处理
x_train.shape

#5.实例化模型对象
knn = KNeighborsClassifier(n_neighbors=6)#n_neighbors == k

- 在knn中k的取值不同会直接导致分类结果的不同。n_neighbors参数就表示k值。
- 模型的超参数：如果模型参数有不同的取值且不同的取值会模型的分类或者预测会产生直系的影响。

x_train.shape

#6.使用训练集数据训练模型
#X:训练集的特征数据.特征数据的维度必须是二维。
#y:训练集的标签数据
knn = knn.fit(x_train,y_train)

#7.测试模型：使用测试数据
#predict表示使用训练好的模型实现分类或者预测
y_pred = knn.predict(x_test) #模型基于测试数据返回的分类结果
y_true = y_test #测试集真实的分类结果
print('模型的分类结果:',y_pred)
print('真实的分类结果:',y_true)

knn.score(x_test,y_test)

knn.predict([[6.1,3.1,4.7

最低0.47元/天解锁文章

qq_39623031

关注

3
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
机器学习之路——KNN+交叉验证

现在我们得到了样本集中所有电影与未知电影的距离，按照距离递增排序，可以找到K个距离最近的电影。K-近邻算法按照距离最近的三部电影的类型，决定未知电影的类型，而这三部电影全是爱情片，因此我们判定未知电影是爱情片。首先我们需要知道这个未知电影存在多少个打斗镜头和接吻镜头，上图中问号位置是该未知电影出现的镜头数图形化展示，具体数字参见下表。没有哪个电影人会说自己制作的电影和以前的某部电影类似，但我们确实知道每部电影在风格。的打斗场景也更频繁，基于此类场景在某部电影中出现的次数可以用来进行电影分类。
复制链接

扫一扫