python机器学习二分类混淆矩阵_机器学习实战_分类（二）

最新推荐文章于 2022-09-16 15:47:58 发布

秘密星星

最新推荐文章于 2022-09-16 15:47:58 发布

阅读量1.6k

点赞数

文章标签： python机器学习二分类混淆矩阵

本文链接：https://blog.csdn.net/weixin_31943957/article/details/113671524

版权

本文介绍了如何使用Python中的RandomForestClassifier和SGDClassifier进行二分类任务，通过ROC曲线和ROC AUC比较模型性能。文章详细解释了如何获取决策分数，绘制ROC曲线，并展示了多类分类中的One-vs-All和One-vs-One策略。最后，讨论了通过混淆矩阵进行误差分析以改进分类器的方法。

摘要由CSDN通过智能技术生成

我们训练一个RandomForestClassifier，然后拿它的的ROC曲线和ROC AUC数值去跟SGDClassifier的比较。首先你需要得到训练集每个样例的数值。但是由于随机森林分类器的工作方式，RandomForestClassifier不提供decision_function()方法。相反，它提供了predict_proba()方法。Skikit-Learn分类器通常二者中的一个。predict_proba()方法返回一个数组，数组的每一行代表一个样例，每一列代表一个类。数组当中的值的意思是：给定一个样例属于给定类的概率。比如，70%的概率这幅图是数字 5。

from sklearn.ensemble import RandomForestClassifier

forest_clf = RandomForestClassifier(random_state=42)

y_probas_forest = cross_val_predict(forest_clf, X_train, y_train_5, cv=3,

method="predict_proba")

但是要画 ROC 曲线，你需要的是样例的分数，而不是概率。一个简单的解决方法是使用正例的概率当作样例的分数。

y_scores_forest = y_probas_forest[:, 1] # score = proba of positive class 预测为正例概率

fpr_forest, tpr_forest, thresholds_forest = roc_curve(y_train_5,y_scores_forest)

现在你即将得到 ROC 曲线。将前面一个分类器的 ROC 曲线一并画出来是很有用的，可以清楚地进行比较。

plt.plot(fpr, tpr, "b:", label="SGD")

plot_roc_curve(fpr_forest, tpr_forest, "Random Forest")

plt.legend(loc="bottom right")

plt.show()

如你所见，RandomForestClassifier的 ROC 曲线比SGDClassifier的好得多：它更靠近左上角。所以，它的 ROC AUC 也会更大。

>>> roc_auc_score(y_train_5, y_scores_forest)

0.99312433660038291

现在你知道如何训练一个二分类器，选择合适的标准，使用交叉验证去评估你的分类器，选择满足你需要的准确率/召回率折衷方案，和比较不同模型的 ROC 曲线和 ROC AUC 数值。现在让我们检测更多的数字，而不仅仅是一个数字 5。

多类别分类

一些算法(比如随机森林分类器或者朴素贝叶斯分类器)可以直接处理多类分类问题。其他一些算法(比如 SVM 分类器或者线性分类器)则是严格的二分类器。然后，有许多策略可以让你用二分类器去执行多类分类。

一个方法是：训练10个二分类器，每一个对应一个数字(探测器 0，探测器 1，探测器 2，以此类推)。然后当你想对某张图片进行分类的时候，让每一个分类器对这个图片进行分类，选出决策分数最高的那个分类器(One vs all 里面分数最高的One)。这叫做“一对所有”(OvA)策略

另一个策略是对每一对数字都训练一个二分类器：一个分类器用来处理数字 0 和数字 1，一个用来处理数字 0 和数字 2，一个用来处理数字 1 和 2，以此类推。这叫做“一对一”(OvO)策略。如果有 N 个类。你需要训练N*(N-1)/2个分类器。

一些算法(比如 SVM 分类器)在训练集的大小上很难扩展，所以对于这些算法，OvO 是比较好的，因为它可以在小的数据集上面可以更多地训练，较之于巨大的数据集而言。但是，对于大部分的二分类器来说，OvA 是更好的选择。Scikit-Learn 可以探测出你想使用一个二分类器去完成多分类的任务，它会自动地执行 OvA(除了 SVM 分类器，它使用 OvO)让我们试一下SGDClassifier.

>>> sgd_clf.fit(X_train, y_train) # y_train