c)Scikit-learn工具介绍
load_获取小数据集
fetch_8获取大规模数据集
Sklearn.datasets.load_(data_home=None,subset=’train’)
-subset:’train’或者‘test’、‘all’可选,选择要加载的数据集
-训练集的‘训练’,测试集的‘测试’,两者的‘全部’
数据返回类型:datasets.base.Bunch(继承自字典)
可以使用dict[“key”] = values
Bunch.key = values
常用操作如下
print(“莺尾花数据集合:\n”,iris)
print(“查看数据集描述:\n”,iris[“DESCR”])
print(“查看特征值名字:\n”,iris.feature_names)
print(“查看特征值名字:\n”,iris.data,iris.data.shape)
一般不是把数据全部当作训练集合,一般还会留下部分作为测试集合,这叫做数据集的划分,其提供了一个api
Sklearn.model_selection.train_test_split(arrays,*options)
-x数据集的特征值
-y数据集的标签值
-test_size测试集的大小,一般为float
-random-state随机种子,不同的种子会造成不同的采样结果。相同的种子采样结果相同
-return训练集特征值,测试集特征值,训练集目标值,测试集目标值
代码如下
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
def data_demo():
"""
sklearn数据集的使用
:return:
"""
iris = load_iris()
print("莺尾花数据集合:\n",iris)
print("查看数据集描述:\n",iris["DESCR"])
print("查看特征值名字:\n",iris.feature_names)
print("查看特征值名字:\n",iris.data,iris.data.shape)
# 数据集的划分
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
print("训练集的特征值", x_train, x_train.shape)
return None