机器学习
算法流程
- 获取数据
- 数据基本处理
- 特征工程
- 机器学习(模型训练)
- 模型评估
1 (数据集)数据集的划分 :避免过拟合(避免上线尴尬)
测试集 最好只能用一次
一般将数据中的70%-80%作为训练数据,将剩余的作为测试数据
注意:
- 在训练集测试集划分的时候都会先做乱序
- X_train y_train 训练集的特征和目标
- X_test y_test 测试集的特征和目标
- 一般训练集测试集的比例 70% 30%
- 80% 20%
- random_state 每一次划分训练集测试集都是一样的
导包以及API:
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_