目录
前言
这个学期我们开始学习数据挖掘了,准备在csdn上记录一些学习笔记。
实验课是从sklearn数据库开始的。第一次实验课,以鸢尾花(iris)数据集和波士顿房价数据集以及手写数字数据集为例,学习了一些基本概述和数据预处理的相关命令。
一、鸢尾花(iris)数据集
1.导入并加载数据集
#导入iris库 from sklearn.datasets import load_iris #加载iris数据库 iris = load_iris() iris
输出结果如下:
2.一些基本命令
iris.keys() #以字典的形式返回 iris.filename #数据集所在位置 print(iris.DESCR) #对数据集的介绍 iris.target_names #目标变量名 iris.feature_names #列名称 iris.data #等价于iris['data']
3.将数据集转为数据框
#转为数据框 import pandas as pd iris_df = pd.DataFrame(iris.data,columns = iris.feature_names) iris_df
结果如下:
#增加数据框的列 iris_df['class']= iris.target iris_df
结果如下:
二、波士顿房价数据集
1.导入并加载数据集
from sklearn import datasets boston = datasets.load_boston() boston
结果如下:
2.一些基本命令
boston.keys() #以字典的形式返回 boston.filename #数据集所在位置 print(boston.DESCR) #对数据集的介绍 boston.target_names #目标变量名 boston.feature_names #列名称 boston.data #等价于iris['data']
3.将数据集转为数据框
import pandas as pd boston_df = pd.DataFrame(boston.data,columns = boston.feature_names) boston_df.head(20)
结果如下:
![]()
三、手写数字数据集
手写数字数据集包括1797个数字数据,每个数字由8 * 8的矩阵组成
1.导入并加载数据集
from sklearn.datasets import load_digits digit=load_digits() digit
结果如下(部分):
2.一些基本命令
digit.keys()
结果:
digit.images.shape
结果:
digit.images[0]
结果:
digit.target[1700]
结果:
%matplotlib inline import matplotlib.pyplot as plt plt.matshow(digit.images[1700])
结果:
digit.data
结果:
四、sklearn"三板斧“
实例化-->fit(训练)-->transforms or predict(转化/预测)
from sklearn import preprocessing#预处理 std = preprocessing.StandardScaler()#实例化 std.fit(boston.data)
结果:
#期望 std.mean_
结果:
#方差 std.var_
结果:
std.transform(boston.data)#转化
结果:
#合二为一 std.fit_transform(boston.data)
结果: