机器学习(三)sklearn数据集
一.数据集划分
一般来说,数据集分为两大部分
- 训练数据:用于训练,构建模型
- 测试数据:在模型检验时使用,用于评估模型是否有效
一般来说,测试数据的量要比训练数据的量小很多。测试数据量:训练数据量大概为25%:75%。测试数据都是一些没有使用过的新数据。
二.数据集的使用
对于个人来说,数据集的采集通常需要花费大量的精力和时间。但是,包括sklearn, kaggle这些,都给提供了很多数据集。
我们以sklearn为例,在sklearn中,数据集划分的api如下:
# 数据集划分 API
sklearn.model_selection.train_test_split
而数据集获取的接口如下:
#数据集API,以及相关方法
sklearn.datasets #加载获取流行数据集
datasets.load_