模型评估与改进（学习记录）

最新推荐文章于 2024-01-30 23:44:10 发布

板烧鱼仔

最新推荐文章于 2024-01-30 23:44:10 发布

阅读量847

点赞数

文章标签：列表 python 机器学习深度学习人工智能

本文链接：https://blog.csdn.net/kesisour/article/details/107482029

版权

本文介绍了交叉验证的概念，包括k折交叉验证、留一法、分组交叉验证及其在Python中的实现。此外，还讲解了网格搜索在模型参数优化中的作用，以及如何结合交叉验证寻找最佳模型参数。最后，讨论了二分类问题的评估指标，如精度、召回率和F-score，并展示了相关函数的使用。

摘要由CSDN通过智能技术生成

引入

数据集创建

函数：sklearn.datasets.make_blobs（）

x,y = sklearn.datasets.make_blobs(n_samples=100, n_features=2, centers=3, cluster_std=1.0, center_box=(-10.0, 10.0), shuffle=True, random_state=None)
# n_samples: (default=100) 样本数目
# n_features: (default=2) 每个样本的特征数
# center: (default=3)  样本的类别数
# cluster_std: (default=1.0) 每个类别的方差（限制每个类不同方差用列表存储）
# center_box: (default=(-10.0, 10.0)) 每个类别的边界
# shuffle：(default=True)
# random_state: (default=None) 随机数种子

数据集分组

函数：sklearn.model_selection.train_test_split()

X_train,X_test, y_train, y_test =cross_validation.train_test_split(train_data,train_target,test_size=0.3, random_state=0)
train_data：样本特征集
train_target：样本结果集
test_size：样本占比，整数是测试集的数量，浮点数（0，1）为测试集占比
random_state：是随机数的种子

简单练习

from sklearn.datasets import make_blobs
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import  train_test_split

X,y = make_blobs(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X,y,random_state=0)
logreg = LogisticRegression().fit(X_train,y_train)

print("Test set score:{:.2f}".format(logreg.score(X_test,y_test)))

交叉验证

简单实现

概述：
交叉验证（cross-validation）是一种评估泛化性能的统计学方法，它比单次划分训练集和测试集的方法更加稳定、全面。在交叉验证中，数据被多次划分，并且需要训练多个模型。最常用的交叉验证是 k 折交叉验证（k-fold cross-validation），其中 $k$ 是由用户指定的数字，通常取 5 或 10。在执行 5 折交叉验证时，首先将数据划分为（大致）相等的 5 部分，每一部分叫作折（fold）。接下来训练一系列模型。使用第 1 折作为测试集、其他折（2~5）作为训练集来训练第一个模型。利用 2~5 折中的数据来构建模型，然后在 1 折上评估精度。之后构建另一个模型，这次使用 2 折作为测试集，1、3、4、5 折中的数据作为训练集。利用 3、4、5 折作为测试集继续重复这一过程。对于将数据划分为训练集和测试集的这 5 次划分，每一次都要计算精度。最后我们得到了 5 个精度值。

函数：sklearn.model_selection.cross_val_score()

score = sklearn.model_selection.cross_val_score(estimator, X, y=None, groups=None, scoring=None, cv=None, n_jobs=1, verbose=0, fit_params=None, pre_dispatch=‘2*n_jobs