机器学习之sklearn基础教程

Qpeterqiufengyi

于 2024-04-23 20:54:48 发布

阅读量829

点赞数 20

文章标签： sklearn

本文链接：https://blog.csdn.net/Qpeterqiufengyi/article/details/138138207

版权

本文详细介绍了如何使用sklearn库进行机器学习，包括获取数据（如iris数据集）、数据预处理（归一化、正则化、one-hot编码）、数据集拆分、定义模型（线性回归、逻辑回归、朴素贝叶斯、决策树、SVM、KNN、多层感知机）以及模型评估与选择（交叉验证、检验曲线）。最后，还讨论了模型的保存方法，如pickle和joblib。

摘要由CSDN通过智能技术生成

1. 获取数据

1.1 导入sklearn数据集

　　sklearn中包含了大量的优质的数据集，在你学习机器学习的过程中，你可以通过使用这些数据集实现出不同的模型，从而提高你的动手实践能力，同时这个过程也可以加深你对理论知识的理解和把握。（这一步我也亟需加强，一起加油！^-^）

首先呢，要想使用sklearn中的数据集，必须导入datasets模块：

from sklearn import datasets

下图中包含了大部分sklearn中数据集，调用方式也在图中给出，这里我们拿iris的数据来举个例子：

iris = datasets.load_iris() # 导入数据集

X = iris.data # 获得其特征向量

y = iris.target # 获得样本label

1.2 创建数据集

下面我们拿分类问题的样本生成器举例子：

from sklearn.datasets.samples_generator import make_classification

X, y = make_classification(n_samples=6, n_features=5, n_informative=2, 
    n_redundant=2, n_classes=2, n_clusters_per_class=2, scale=1.0, 
    random_state=20)

# n_samples：指定样本数
# n_features：指定特征数
# n_classes：指定几分类
# random_state：随机种子，使得随机状可重

>>> for x_,y_ in zip(X,y):
    print(y_,end=': ')
    print(x_)

    
0: [-0.6600737  -0.0558978   0.82286793  1.1003977  -0.93493796]
1: [ 0.4113583   0.06249216 -0.90760075 -1.41296696  2.059838  ]
1: [ 1.52452016 -0.01867812  0.20900899  1.34422289 -1.61299022]
0: [-1.25725859  0.02347952 -0.28764782 -1.32091378 -0.88549315]
0: [-3.28323172  0.03899168 -0.43251277 -2.86249859 -1.104