前言:
机器学习经常使用的框架是sklearn,要善于使用它的API,已经相关参数调用。下面是使用sklearn的获取方法
对于大数据集的使用
鸢尾花数据集的下载和使用
from sklearn.datasets import load_iris
def datasets_demo():
iris = load_iris()
print("鸢尾花数据集:\n",iris)
print("查看数据集描述:\n",iris["DESCR"])
print("查看特征值的名字:\n",iris.feature_names)
print("查看特征值:\n",iris.data)
print("查看特征值形状:\n",iris.data.shape)
return None
if __name__ == "__main__":
datasets_demo()
获取数据集之后还需要对数据集进行相应的处理,因为数据集分为训练集和测试集别忘了导入 from sklearn.model_selection import train_test_split
使用的是
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
下面是具体的数据集的划分内容
以鸢尾花数据集为举例
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
def datasets_demo():
#获取数据集
iris = load_iris()
print("鸢尾花数据集:\n",iris)
print("查看数据集描述:\n",iris["DESCR"])
print("查看特征值的名字:\n",iris.feature_names)
print("查看特征值:\n",iris.data)
print("查看特征值形状:\n",iris.data.shape)
#数据集的划分
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
print("训练集的特征值:\n",x_train,x_train.shape)
print("测试集的特征值:\n",x_test,x_test.shape)
return None
if __name__ == "__main__":
datasets_demo()
这大概就是对于数据集的基本使用!