SKLearn学习

最新推荐文章于 2022-01-26 15:52:21 发布

Fan72

最新推荐文章于 2022-01-26 15:52:21 发布

阅读量335

点赞数 1

分类专栏： Learning notes

本文链接：https://blog.csdn.net/fzp95/article/details/93743662

版权

Learning notes 专栏收录该内容

21 篇文章 0 订阅

订阅专栏

SKLearn全称scikit-learn，它是一个开源的python机器学习库，整合了很多机器学习的算法，提供了简单有效的接口。它和NumPy, SciPy, matplotlib共同合作，为数据分析和数据挖掘提供了便捷的工具箱。下面是它的官网：
https://scikit-learn.org/stable/

一、SKLearn中带有的学习器接口

1. 无监督学习

在这里插入图片描述

2. 监督学习

在这里插入图片描述

二、SKLearn六大板块统一API

在这里插入图片描述

三、SKLearn的数据集

在这里插入图片描述

1.自带小数据集 sklearn.datasets.load_

在这里插入图片描述
获得数据集的默认home路径：

from sklearn.datasets import get_data_home
print(get_data_home())
# 返回：C:\Users\Administrator\scikit_learn_data

导入的数据集的类型是Bunch类型，相当于字典类型，以鸢尾花数据集为例：
在这里插入图片描述
keys中有五个关键字，'data’是特征数据，比如这里面是150x4大小的数据，说明有150个数据，4个特征，'target’是鸢尾花的目标种类，有三种，分别用0,1,2表示，'target_names’是三个品种的名称，'DESCR’描述了一些详细信息，'feature_names’是四种特征的名称

2.可在线下载的数据集 sklearn.datasets.fetch_

在这里插入图片描述
其中，fetch_lfw_peole()用于人脸识别，fetch_lfw_pair()用于人脸验证，即判断是不是人脸

3. 计算机生成的数据集 sklearn.datasets.make_

make_blob 制作一个或多个正态分布点集，常用于聚类
make_classification 和上面的一样，但是用于分类
make_moons 制作月牙形数据集
make_circles 制作环形数据集

四、模型选择 model_selection

1. 数据集划分方法

在这里插入图片描述
返回tuple类型迭代器

K折交叉验证：KFold, GroupKFord, StratifiedKFord
这种方法充分利用了所有样本，但是需要训练K次，测试K次
留一法，留P法：LeaveOneOut, LeaveOneGroupOut, LeavePOut, LeavePGroupOut
N个样本，N-1个样本训练一个分类器，最后要训练出N个分类器。与K折交叉验证相比更加耗时，K折交叉验证当K=1时，相当于留一法。
留P法是留P个样本，剩下N-P样本训练，测试集会发生重叠。
随机划分：ShuffleSplit, GroupShuffleSplit, StratifiedShuffleSplit
StratifiedShuffleSplit保证了划分的类中的样本比例与整体数据中的比例一致

2. 超参数选取

在这里插入图片描述
主要有两种超参数选择方法：网格搜索和随机采样

GridSearchCV第一个参数是学习器estimator，第二个是一个参数网格param_grid，指定了所有的超参数。
以SVM为例：

RandomizedSearchCV会传入一个超参数搜索空间，指定了超参的采样范围和分布，还需要指定迭代多少次
在这里插入图片描述