SKLearn全称scikit-learn,它是一个开源的python机器学习库,整合了很多机器学习的算法,提供了简单有效的接口。它和NumPy, SciPy, matplotlib共同合作,为数据分析和数据挖掘提供了便捷的工具箱。下面是它的官网:
https://scikit-learn.org/stable/
一、SKLearn中带有的学习器接口
1. 无监督学习
2. 监督学习
二、SKLearn六大板块统一API
三、SKLearn的数据集
1.自带小数据集 sklearn.datasets.load_
获得数据集的默认home路径:
from sklearn.datasets import get_data_home
print(get_data_home())
# 返回:C:\Users\Administrator\scikit_learn_data
导入的数据集的类型是Bunch类型,相当于字典类型,以鸢尾花数据集为例:
keys中有五个关键字,'data’是特征数据,比如这里面是150x4大小的数据,说明有150个数据,4个特征,'target’是鸢尾花的目标种类,有三种,分别用0,1,2表示,'target_names’是三个品种的名称,'DESCR’描述了一些详细信息,'feature_names’是四种特征的名称
2.可在线下载的数据集 sklearn.datasets.fetch_
其中,fetch_lfw_peole()用于人脸识别,fetch_lfw_pair()用于人脸验证,即判断是不是人脸
3. 计算机生成的数据集 sklearn.datasets.make_
make_blob 制作一个或多个正态分布点集,常用于聚类
make_classification 和上面的一样,但是用于分类
make_moons 制作月牙形数据集
make_circles 制作环形数据集
四、模型选择 model_selection
1. 数据集划分方法
返回tuple类型迭代器
- K折交叉验证:KFold, GroupKFord, StratifiedKFord
这种方法充分利用了所有样本,但是需要训练K次,测试K次 - 留一法,留P法:LeaveOneOut, LeaveOneGroupOut, LeavePOut, LeavePGroupOut
N个样本,N-1个样本训练一个分类器,最后要训练出N个分类器。与K折交叉验证相比更加耗时,K折交叉验证当K=1时,相当于留一法。
留P法是留P个样本,剩下N-P样本训练,测试集会发生重叠。 - 随机划分:ShuffleSplit, GroupShuffleSplit, StratifiedShuffleSplit
StratifiedShuffleSplit保证了划分的类中的样本比例与整体数据中的比例一致
2. 超参数选取
主要有两种超参数选择方法:网格搜索和随机采样
GridSearchCV第一个参数是学习器estimator,第二个是一个参数网格param_grid,指定了所有的超参数。
以SVM为例:
RandomizedSearchCV会传入一个超参数搜索空间,指定了超参的采样范围和分布,还需要指定迭代多少次
3. 模型验证方法
五、模型评估方法
- Estimator对象中的score方法
- 在交叉验证中使用scoring参数
- 使用sklearn.metric中的性能度量函数