Python爬虫人工智能教程:www.python88.cn
编程资源网:www.python66.cn
数据集介绍与划分
学习目标
- 目标
- 知道数据集的分为训练集和测试集
- 知道sklearn的分类、回归数据集
- 应用
- 无
拿到的数据是否全部都用来训练一个模型?
1、 数据集的划分
机器学习一般的数据集会划分为两个部分:
- 训练数据:用于训练,构建模型
- 测试数据:在模型检验时使用,用于评估模型是否有效
划分比例:
- 训练集:70% 80% 75%
- 测试集:30% 20% 30%
API
- sklearn.model_selection.train_test_split(arrays, *options)
- x 数据集的特征值
- y 数据集的标签值
- test_size 测试集的大小,一般为float
- random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。
- return ,测试集特征训练集特征值值,训练标签,测试标签(默认随机取)