机器学习一般的数据会划分为两个部分:
训练数据:用于训练,构建模型(75%)
测试数据:在模型检查时使用,用于评估模型是否有效(25%)
数据划分API: sklearn.model_selection.train_test_split()返回数据的类型的顺序(训练数据特征,测试数据特征,训练数据目标值,测试数据的目标值),这个顺序必须一致,不能改变。
获取数据API:
sklearn.datasets 加载获取流行数据集
datasets.load_*() 获取小规模数据集,数据包含在datasets里【xp: sklearn.datasets.load_iris() 返回尾花数据集
datasets.fetch_*(data_home=None) 获取大规模数据集,需要从网络上下载,函数的第一个参数是data_home,表示数据集下在的目录,默认是~/scikit_learn_data/
返回的数据的格式