机器学习中的模型训练问题

a116297531

已于 2024-04-17 17:22:43 修改

阅读量370

点赞数 9

文章标签：机器学习深度学习

于 2024-03-12 16:33:57 首次发布

本文链接：https://blog.csdn.net/a116297531/article/details/136651171

版权

本文介绍了机器学习模型的训练过程，包括使用训练集和测试集评估模型性能，区分过拟合和欠拟合现象，以及通过验证集和K折交叉验证优化模型选择。同时讨论了常用的衡量模型指标如准确率、精度、召回率和AUC。

摘要由CSDN通过智能技术生成

机器学习的目的是使学到的模型不仅对已知数据而且对未知数据都能有很好的预测能力。不同的学习方法会训练出不同的模型，不同的模型可能会对未知数据作出不同的预测，然而我们手上并没有“未知”的数据。所以，如何评价模型好坏，并选择出好的模型是我们这个实训需要掌握的内容。

1、训练集和测试集

模型训练好之后，在将模型用于新的测量数据之前，我们需要知道模型是否有效，也就是说，我们是否应该相信它的预测结果。不过，用于训练模型的数据并不适合用于测试评估模型的性能。因为我们的模型会一直记住整个训练集，所以，对于训练集中的任何数据点总会预测成正确的标签。通常的做法是，我们把手头上的数据分为两部分，训练集与测试集。训练集用来构建机器学习模型，测试集用来评估模型性能。

一般一份数据用于区分训练集和测试集以8：2或7：3进行划分，train_test_split()是sklearn.model_selection中的分离器函数，⽤于将数组或矩阵划分为训练集和测试集。

X_train, X_test, y_train, y_test = train_test_split(train_data, train_target, test_size, random_state, shuffle)

# X_train	划分的训练集数据
# X_test	划分的测试集数据
# y_train	划分的训练集标签
# y_test	划分的测试集标签
# train_data	还未划分的数据集
# train_target	还未划分的标签
# test_size	分割比例，默认为0.25，即测试集占完整数据集的比例
# random_state	随机数种子，应用于分割前对数据的洗牌。可以是int，RandomState实例或None，默认值=None。设成定值意味着，对于同一个数据集，只有第一次运行是随机的，随后多次分割只要rondom_state相同，则划分结果也相同。
# shuffle：洗牌模式，1）shuffle = False，不打乱样本数据顺序；2）shuffle = True，打乱样本数据顺序

2、过拟合和欠拟合

欠拟合：模型在训练集上误差很高；

欠拟合原因：模型过于简单，没有很好的捕捉到数据特征，不能很好的拟合数据。

过拟合：在训练集上误差低，测试集上误差高；

过拟合原因：模型把数据学习的太彻底，以至于把噪声数据的特征也学习到了，这样就会导致在后期测试的时候不能够很好地识别数据，模型泛化能力太差。

一般判断模型欠拟合或者过拟合，通常通过对模型在测试集上的准确率进行判断，模型的准确率一般在60~90左右为正常范围，若模型判断准确率时低于60，则模型处于欠拟合，若模型判断准确率在98左右，则说明模型过拟合。

一般判断过拟合或者欠拟合需要通过多次设置不同的测试集进行，避免数据原因对模型的状态判断错误。

3、验证集与交叉验证

验证集：

为了得到有效的模型，我们通常要在模型选择上下⼀番功夫。从严格意义上讲，测试集只能在所有超参数和模型参数选定后使⽤⼀次。不可以使⽤测试数据选择模型，如调参。由于⽆法从训练误差估计泛化误差，因此也不应只依赖训练数据选择模型。鉴于此，我们可以预留⼀部分在训练数据集和测试数据集以外的数据来进⾏模型选择。这部分数据被称为验证数据集，简称验证集。

X_train, X_test, y_train, y_test = train_test_split(df_X, df_y, test_size=test_size, random_state=seed)

一般使用上述方法将带结果的数据集划分出训练集和测试集，我们一般使用训练集进行模型训练，用测试集去验证模型的准确性。

k折交叉验证：

由于验证数据集不参与模型训练，当训练数据不够⽤时，预留⼤量的验证数据显得太奢侈。⼀种改善的⽅法是 K 折交叉验证。在 K 折交叉验证中，我们把原始训练数据集分割成 K 个不重合的⼦数据集，然后我们做K次模型训练和验证。每⼀次，我们使⽤⼀个⼦数据集验证模型，并使⽤其它 K−1 个⼦数据集来训练模型。在这 K 次训练和验证中，每次⽤来验证模型的⼦数据集都不同。最后，我们对这 K 次训练误差和验证误差分别求平均。

# 划分为5折交叉验证数据集
kf = KFold(n_splits=5, shuffle=False)
for i, (train_index, test_index) in enumerate(kf.split(df_X)):
print(f'KFold {i + 1}:')
print("Train index:", train_index, "Test index:", test_index)
X_train, X_test = df_X.iloc[train_index], df_X.iloc[test_index]
y_train, y_test = df_y.iloc[train_index], df_y.iloc[test_index]
print("Train y:", y_train, "Test y:", y_test)

一般使用上述方法将训练集或测试集划分为5折（n_splits用于设置划分的折数），后续代码分别给出每一折分出的模型训练集和测试集得到的索引。

或者是其他的分类器，如：

from sklearn.linear_model import SGDClassifier

sgd_clf = SGDClassifier(max_iter=5,tol=-np.infty,random_state=42)
#最大迭代次数5 阈值负无穷 设置random_state使其可复现结果

4、衡量模型的指标

在我们区分好模型需要的训练集和测试集后，我们需要对模型进行训练，一般我们想要使用什么模型直接调用模型所需要的包就能直接使用模型进行训练了，如下的一些常规模型：

from sklearn.linear_model import LogisticRegression
from sklearn.tree import DecisionTreeClassifier
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier

log_r = LogisticRegression()  # 逻辑回归模型

tree = DecisionTreeClassifier()  # 决策树模型

svm = SVC(probability=True)  # SVM模型

forest = RandomForestClassifier()  # 随机森林

Gbdt = GradientBoostingClassifier()  # GBDT

在调用了上述模型后，直接使用训练集进行模型的训练就能直接训练模型了：

model.fit(X_train, y_train)

其中model是你对调用模型的命名。

在模型训练完毕后，还需要使用划分出的测试集去验证模型的一些常规数据（如精准率、召回率等），一般使用如下代码：

model.fit(X_train, y_train)
accuracy = cross_val_score(model, X_test, y_test, scoring='accuracy')
precision = cross_val_score(model, X_test, y_test, scoring='precision')
recall = cross_val_score(model, X_test, y_test, scoring='recall')
f1_score = cross_val_score(model, X_test, y_test, scoring='f1')
auc = cross_val_score(model, X_test, y_test, scoring='roc_auc')
print("准确率:", accuracy.mean())
print("精确率:", precision.mean())
print("召回率:", recall.mean())
print("F1_score:", f1_score.mean())
print("AUC:", auc.mean())

上述代码能得到模型的各种验证数据，如需要其他数据，可使用summary()函数得到模型的包含混淆矩阵的所有数据。部分模型可能有不同的模型信息输出函数，具体如何使用可在pycharm软件上点击调用的模型悬停一会后，通过软件的提示，查看模型的包文档或解释网站，具体模型具体查找。

a116297531

关注

9
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
机器学习中的模型训练问题

模型训练好之后，在将模型用于新的测量数据之前，我们需要知道模型是否有效，也就是说，我们是否应该相信它的预测结果。训练集用来构建机器学习模型，测试集用来评估模型性能。一般判断模型欠拟合或者过拟合，通常通过对模型在测试集上的准确率进行判断，模型的准确率一般在60~90左右为正常范围，若模型判断准确率时低于60，则模型处于欠拟合，若模型判断准确率在98左右，则说明模型过拟合。过拟合原因：模型把数据学习的太彻底，以至于把噪声数据的特征也学习到了，这样就会导致在后期测试的时候不能够很好地识别数据，模型泛化能力太差。
复制链接

扫一扫