01 sklearn基础操作笔记(sklearn.datasets)

最新推荐文章于 2024-05-22 17:12:34 发布

四喜小丸子.

最新推荐文章于 2024-05-22 17:12:34 发布

阅读量130

点赞数 1

文章标签： sklearn 笔记人工智能

本文链接：https://blog.csdn.net/2302_78250364/article/details/134160445

版权

01 sklearn基础操作笔记(sklearn.datasets)

一、加载iris鸢尾花数据集

1.加载iris鸢尾花数据集

 #加载iris数据集
from sklearn.datasets import load_iris
iris = load_iris()

在这里插入图片描述

2.打印iris鸢尾花数据集

#所在位置最后一行
print(iris)

在这里插入图片描述

3.iris鸢尾花数据的特征值

iris.keys()
iris.target #标签
iris.target_names #类别名称
iris.data #iris['data']

在这里插入图片描述

4.查看iris鸢尾花数据集的特征值的名字

iris.feature_names
#查看iris鸢尾花数据集的特征值的名字

在这里插入图片描述

5.了解iris鸢尾花数据今年情况

print(iris.DESCR)
#了解数据今年情况

在这里插入图片描述

二、加载boston数据集

from sklearn.datasets import load_boston
boston = load_boston()

boston.keys()
boston.feature_names

在这里插入图片描述

三、sklearn 三板斧（适用于驼峰命名的类）:

实例化
fit
transform or predict
（驼峰命名原则：每个单词首字母大写）

例题：

1.实例化

from sklearn.tree import DecisionTreeClassifier
my_tree = DecisionTreeClassifier(max_depth = 3)
my_tree.get_params()

在这里插入图片描述

#修改参数值
my_tree.set_params(min_samples_leaf = 10)
#查看修改后的参数值
my_tree.get_params()

在这里插入图片描述

2.训练 fit

x = iris.data
y = iris.target
my_tree.fit(x,y)

#预测或评估
y1 = my_tree.predict(x)

my_tree.score(x,y)

在这里插入图片描述

my_tree.max_features_

#可用于特征选择
my_tree.feature_importances_

#Attributes为属性
#random_state为随机种子
help(DecisionTreeClassifier)

在这里插入图片描述

3.fit + transform or predict

#导入数据标椎库
from sklearn.preprocessing import StandardScaler

#实例化
std = StandardScaler(copy = False)#默认服从正态分布

import pandas as pd
bos_df = pd.DataFrame(boston.data, columns = boston.feature_names)

bos_df

在这里插入图片描述

#fit
std.fit(bos_df)

#transform
std.transform(bos_df)

在这里插入图片描述

# fit和transform可以一步完成
bos2 = std.fit_transform(bos_df)

#每一列均值
std.mean_
#每一列方差
std.var_

在这里插入图片描述

bos_df
bos2

#重新加载boston数据
boston = load_boston()
boston.data

在这里插入图片描述

scale和SklearnScaler的区别:

与SklearnScaler功能相同的标准化函数：scale
处理多个数据集用SklearnScaler**

from sklearn.preprocessing import scale

x1 = scale(boston.data， axis =1)
#axis = 0，按列标准化
#axis = 1，按行标准化

x1

在这里插入图片描述

四、模型的保存——“持久化”

import joblib
joblib.dump(my_tree,'ddd.pkl')

#模型保存和使用
import joblib

my_tree1 = joblib.load("ddd.pkl")

from sklearn.datasets import load_iris
iris = load_iris()
my_tree1.predict(iris.data)

在这里插入图片描述