sklearn通用模型（三种万能模板）

暴躁的秋秋

已于 2023-07-28 14:23:52 修改

阅读量582

点赞数 1

文章标签： sklearn python 机器学习

于 2023-07-28 14:17:53 首次发布

本文链接：https://blog.csdn.net/m0_67431719/article/details/131979089

版权

一、万能模板1.0版

二、万能模板V2.0版

三、万能模板V3.0版

一、万能模板1.0版

第一步 1、加载数据集因为原始的数据集中包含很多空值，而且类别特征用英文名表示各个花的名字，也需要我们转换成数字。

在scikit-learn下的datasets子包里，也自带了一个Iris数据集，这个数据集和原始数据集的区别就是scikit-learn已经帮我们提前处理好了空值等问题，可以直接输入模型用来训练。所以为了方便起见，我们直接使用scikit-learn的数据集。

加载方法如下：

from sklearn.datasets import load_iris data = load_iris() x = data.data y = data.target x值如下，可以看到scikit-learn把数据集经过去除空值处理放在了array里，所以x是一个（150,4）的数组，保存了150个数据的4个特征：

array([[5.1, 3.5, 1.4, 0.2], [4.9, 3. , 1.4, 0.2], [4.7, 3.2, 1.3, 0.2], [4.6, 3.1, 1.5, 0.2], [5. , 3.6, 1.4, 0.2], [5.4, 3.9, 1.7, 0.4], [4.6, 3.4, 1.4, 0.3], [5. , 3.4, 1.5, 0.2], [4.4, 2.9, 1.4, 0.2], [4.9, 3.1, 1.5, 0.1], [5.4, 3.7, 1.5, 0.2], [4.8, 3.4, 1.6, 0.2], [4.8, 3. , 1.4, 0.1], [4.3, 3. , 1.1, 0.1], ………… y值如下，共有150行，其中0、1、2分别代表三类花：

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2]) 2、数据集拆分数据集拆分是为了验证模型在训练集和测试集是否过拟合，使用train_test_split的目的是保证从数据集中均匀拆分出测试集。这里，简单把10%的数据集拿出来用作测试集。

模板1.0应用案例
1、构建SVM分类模型
通过查阅资料，我们知道svm算法在scikit-learn.svm.SVC下，所以：

算法位置填入：svm
算法名填入：SVC()
模型名自己起，这里我们就叫svm_model
套用模板得到程序如下：

# svm分类器

from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

svm_model = SVC()

svm_model.fit(train_x,train_y)

pred1 = svm_model.predict(train_x)
accuracy1 = accuracy_score(train_y,pred1)
print('在训练集上的精确度: %.4f'%accuracy1)

pred2 = svm_model.predict(test_x)
accuracy2 = accuracy_score(test_y,pred2)
print('在测试集上的精确度: %.4f'%accuracy2)

举例：
2、构建LR分类模型
同理，找到LR算法在sklearn.linear_model.LogisticRegression下，所以：

算法位置填入：linear_model
算法名填入：LogisticRegression
模型名叫做：lr_model。
程序如下：

套用模板得到程序如下：

# LogisticRegression分类器

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score #评分函数用精确度评估

lr_model = LogisticRegression()

lr_model.fit(train_x,train_y)

pred1 = lr_model.predict(train_x)
accuracy1 = accuracy_score(train_y,pred1)
print('在训练集上的精确度: %.4f'%accuracy1)

pred2 = lr_model.predict(test_x)
accuracy2 = accuracy_score(test_y,pred2)
print('在测试集上的精确度: %.4f'%accuracy2)

举例：
3、构建随机森林分类模型
随机森林算法在sklearn.ensemble.RandomForestClassifier 下，好了，现在你应该可以自己写了

二、万能模板V2.0版

把模型、数据、划分验证集的个数一股脑输入函数，函数会自动执行上边所说的过程。

在求精确度的时候，我们可以简单地输出平均精确度：

# 输出精确度的平均值
# print("训练集上的精确度: %0.2f " % scores1.mean())
但是既然我们进行了交叉验证，做了这么多计算量，单求一个平均值还是有点浪费了，可以利用下边代码捎带求出精确度的置信度：

# 输出精确度的平均值和置信度区间
print("训练集上的平均精确度: %0.2f (+/- %0.2f)" % (scores2.mean(), scores2.std() * 2))

模板2.0应用案例：
1、构建SVM分类模型
程序如下：

### svm分类器

from sklearn.model_selection import cross_val_score
from sklearn.svm import SVC

svm_model = SVC()
svm_model.fit(train_x,train_y)

scores1 = cross_val_score(svm_model,train_x,train_y,cv=5, scoring='accuracy')
# 输出精确度的平均值和置信度区间
print("训练集上的精确度: %0.2f (+/- %0.2f)" % (scores1.mean(), scores1.std() * 2))

scores2 = cross_val_score(svm_model,test_x,test_y,cv=5, scoring='accuracy')
# 输出精确度的平均值和置信度区间
print("测试集上的平均精确度: %0.2f (+/- %0.2f)" % (scores2.mean(), scores2.std() * 2))

print(scores1)
print(scores2)
输出：

训练集上的精确度: 0.97 (+/- 0.08)
测试集上的平均精确度: 0.91 (+/- 0.10)
[1. 1. 1. 0.9047619 0.94736842]
[1. 0.88888889 0.88888889 0.875 0.875 ]
2、构建LR分类模型
# LogisticRegression分类器

from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression

lr_model = LogisticRegression()
lr_model.fit(train_x,train_y)

scores1 = cross_val_score(lr_model,train_x,train_y,cv=5, scoring='accuracy')
# 输出精确度的平均值和置信度区间
print("训练集上的精确度: %0.2f (+/- %0.2f)" % (scores1.mean(), scores1.std() * 2))

scores2 = cross_val_score(lr_model,test_x,test_y,cv=5, scoring='accuracy')
# 输出精确度的平均值和置信度区间
print("测试集上的平均精确度: %0.2f (+/- %0.2f)" % (scores2.mean(), scores2.std() * 2))

print(scores1)
print(scores2)

三、万能模板V3.0版

调参让算法表现更上一层楼

以上都是通过算法的默认参数来训练模型的，不同的数据集适用的参数难免会不一样，自己设计算法是设计不来的，只能调调参这样子，调参，是广大算法工程师最后的尊严。再说，若是做算法不调参，岂不是辱没了算法工程师在江湖上大名鼎鼎的“炼丹工程师”的名声？

scikit-learn对于不同的算法也提供了不同的参数可以自己调节。如果细说起来，又能写好几篇文章，本文目的是构建一个万能算法框架构建模板，所以，这里只介绍一下一个通用的自动化调参方法，至于更细节的每个算法对应参数的含义以及手动调参方法，会在以后的文章中结合实例具体慢慢介绍。

首先要明确的是，scikit-learn提供了算法().get_params()方法来查看每个算法可以调整的参数，比如说，我们想查看SVM分类器算法可以调整的参数，可以：

a = 1,b=2,c=3,d=4;
for a in range(100)：
   for b in range(100):
       a = LGBM(A=a,B=b,C=c,D=d)
       a(x_train,y_train)//diaoyong
       score = accuracy_score(Y_test, Y_pred)
       if score >max:
           max = score
           maxa = a
           maxb = b
           good = classifier.get_params()

print(maxa,maxb)

SVC().get_params()

输出的就是SVM算法可以调节的参数以及系统默认的参数值。每个参数的具体含义会在以后的文章中介绍。

{'C': 1.0, 'cache_size': 200, 'class_weight': None, 'coef0': 0.0, 'decision_function_shape': 'ovr', 'degree': 3, 'gamma': 'auto', 'kernel': 'rbf', 'max_iter': -1, 'probability': False, 'random_state': None, 'shrinking': True, 'tol': 0.001, 'verbose': False}

接着，就可以引出我们的V3.0版万能模板了。

模板3.0应用案例
实现SVM分类器
###1、svm分类器
from sklearn.model_selection import cross_val_score,GridSearchCV
from sklearn.svm import SVC

svm_model = SVC()

params = [
{'kernel': ['linear'], 'C': [1, 10, 100, 100]},
{'kernel': ['poly'], 'C': [1], 'degree': [2, 3]},
{'kernel': ['rbf'], 'C': [1, 10, 100, 100], 'gamma':[1, 0.1, 0.01, 0.001]}
]

best_model = GridSearchCV(svm_model, param_grid=params,cv = 5,scoring = 'accuracy')
best_model.fit(train_x,train_y)
1）查看最优得分：

best_model.best_score_

0.9714285714285714
2）查看最优参数：

best_model.best_params_

{'C': 1, 'kernel': 'linear'}
3）查看最优模型的所有参数：

best_model.best_estimator_
这个函数会显示出没有调参的参数，便于整体查看模型的参数。

4）查看每个参数的交叉验证结果：

best_model.cv_results_