KNN交叉验证2024/4/25

aliang663

已于 2024-04-25 15:22:04 修改

阅读量311

点赞数 11

文章标签：机器学习 python 人工智能

于 2024-04-25 15:15:50 首次发布

本文链接：https://blog.csdn.net/m0_74200050/article/details/138189793

版权

交叉验证：是一种数据集的分割方法，将训练集划分为n份，那一份做测试集，剩下的n-1份做训练集。目的是为了得到更加准确可信的模型评分。

原理：第一次：把第一份数据做验证集，其他数据做训练。

第二次：把第二份数据做验证集，其他数据做训练。

第n次：把第n份数据做验证集，其他数据做训练。

当k=n时，模型的得分最好，再用全部训练集（训练集+验证集）对k=n模型再训练一遍，再使用测试集对k=n模型做评估。

#交叉验证
#1.加载数据
#2.数据划分
#3.数据预处理（标准化）
#4.实例化模型
#5交叉验证
#6.模型训练及评估

#1加载数据
from sklearn.datasets import load_iris
iris_data = load_iris()
#2.数据划分
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, train_size=0.3, random_state=22)
#3.数据预处理（标准化）
from sklearn.preprocessing import StandardScaler
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.fit_transform(x_test)
#4.实例化模型
from sklearn.neighbors import KNeighborsClassifier
estimator = KNeighborsClassifier()
#5.交叉验证
from sklearn.model_selection import GridSearchCV
estimator = GridSearchCV(estimator=estimator, param_grid={'n_neighbors': [1, 3, 5, 7]}, cv=5)
estimator.fit(x_train, y_train)
print(f'estimator.best_params_:{estimator.best_params_}')

#6.模型评估和训练
import pandas as pd
cvresults = pd.DataFrame(estimator.cv_results_)
cvresults.to_csv(path_or_buf='./cvresult.csv')
score = estimator.score(x_test, y_test)
print(score)

aliang663

关注

11
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
KNN交叉验证2024/4/25

当k=n时，模型的得分最好，再用全部训练集（训练集+验证集）对k=n模型再训练一遍，再使用测试集对k=n模型做评估。交叉验证：是一种数据集的分割方法，将训练集划分为n份，那一份做测试集，剩下的n-1份做训练。目的是为了得到更加准确可信的模型评分。第二次：把第二份数据做验证集，其他数据做训练。第n次：把第n份数据做验证集，其他数据做训练。原理：第一次：把第一份数据做验证集，其他数据做训练。
复制链接

扫一扫