机器学习
算法流程
- 获取数据
- 数据基本处理
- 特征工程
- 机器学习(模型训练)
- 模型评估
1 (数据集)数据集的划分 :避免过拟合(避免上线尴尬)
测试集 最好只能用一次
一般将数据中的70%-80%作为训练数据,将剩余的作为测试数据
注意:
- 在训练集测试集划分的时候都会先做乱序
- X_train y_train 训练集的特征和目标
- X_test y_test 测试集的特征和目标
- 一般训练集测试集的比例 70% 30%
- 80% 20%
- random_state 每一次划分训练集测试集都是一样的
导包以及API:
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=22)
# 百分20 测试集 随机种子22
#random_state 设置随机数种子 这个参数的值传的一样,那么每次生成的随机数就是一样的 写一个固定的值,就是为了方便复现结果
2 (模型评估)分类算法的评估:计算准确率
比例越高说明模型效果越好
API