机器学习(数据集划分/准确率评估/归一化/标准化/超参数搜索和网络搜索)

最新推荐文章于 2023-03-08 11:35:31 发布

DI O

最新推荐文章于 2023-03-08 11:35:31 发布

阅读量1.1k

点赞数

分类专栏：机器学习算法文章标签：机器学习算法

本文链接：https://blog.csdn.net/LeFran/article/details/118951391

版权

本文介绍了机器学习中的关键步骤，包括数据集的划分以避免过拟合，通过准确率评估模型性能，以及特征工程中的归一化和标准化操作。还探讨了超参数搜索和交叉验证在模型训练中的应用，以提高模型的稳定性和准确性。

摘要由CSDN通过智能技术生成

算法流程

在这里插入图片描述

获取数据
数据基本处理
特征工程
机器学习(模型训练)
模型评估

1 (数据集)数据集的划分 :避免过拟合(避免上线尴尬)

测试集最好只能用一次
一般将数据中的70%-80%作为训练数据，将剩余的作为测试数据
注意:

在训练集测试集划分的时候都会先做乱序
X_train y_train 训练集的特征和目标
X_test y_test 测试集的特征和目标
一般训练集测试集的比例 70% 30%
- 80% 20%
- random_state 每一次划分训练集测试集都是一样的

导包以及API:

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=22)
# 百分20 测试集 随机种子22
#random_state  设置随机数种子  这个参数的值传的一样,那么每次生成的随机数就是一样的  写一个固定的值,就是为了方便复现结果