Receiver Operating Characteristic (ROC) with cross validation

print(__doc__)

import numpy as np
from scipy import interp
import matplotlib.pyplot as plt
from itertools import cycle

from sklearn import svm, datasets
from sklearn.metrics import roc_curve, auc
from sklearn.model_selection import StratifiedKFold

# #############################################################################
# Data IO and generation

# Import some data to play with
iris = datasets.load_iris()
X = iris.data
y = iris.target
X, y = X[y != 2], y[y != 2]
n_samples, n_features = X.shape

# Add noisy features
random_state = np.random.RandomState(0)
X = np.c_[X, random_state.randn(n_samples, 200 * n_features)]

# #############################################################################
# Classification and ROC analysis

# Run classifier with cross-validation and plot ROC curves
cv = StratifiedKFold(n_splits=6)
classifier = svm.SVC(kernel='linear', probability=True,
                     random_state=random_state)

tprs = []
aucs = []
mean_fpr = np.linspace(0, 1, 100)

i = 0
for train, test in cv.split(X, y):
    probas_ = classifier.fit(X[train], y[train]).predict_proba(X[test])
    # Compute ROC curve and area the curve
    fpr, tpr, thresholds = roc_curve(y[test], probas_[:, 1])
    tprs.append(interp(mean_fpr, fpr, tpr))
    tprs[-1][0] = 0.0
    roc_auc = auc(fpr, tpr)
    aucs.append(roc_auc)
    plt.plot(fpr, tpr, lw=1, alpha=0.3,
             label='ROC fold %d (AUC = %0.2f)' % (i, roc_auc))

    i += 1
plt.plot([0, 1], [0, 1], linestyle='--', lw=2, color='r',
         label='Luck', alpha=.8)

mean_tpr = np.mean(tprs, axis=0)
mean_tpr[-1] = 1.0
mean_auc = auc(mean_fpr, mean_tpr)
std_auc = np.std(aucs)
plt.plot(mean_fpr, mean_tpr, color='b',
         label=r'Mean ROC (AUC = %0.2f $\pm$ %0.2f)' % (mean_auc, std_auc),
         lw=2, alpha=.8)

std_tpr = np.std(tprs, axis=0)
tprs_upper = np.minimum(mean_tpr + std_tpr, 1)
tprs_lower = np.maximum(mean_tpr - std_tpr, 0)
plt.fill_between(mean_fpr, tprs_lower, tprs_upper, color='grey', alpha=.2,
                 label=r'$\pm$ 1 std. dev.')

plt.xlim([-0.05, 1.05])
plt.ylim([-0.05, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

转载于:https://my.oschina.net/kyo4321/blog/1588369

交叉验证(Cross Validation)是一种常用的模型评估方法,用于评估机器学习模型的性能。它通过将数据集划分为训练集和验证集,多次训练和验证模型,从而得到模型的平均性能指标。 交叉验证的步骤如下: 1. 将数据集划分为K个大小相等的子集,通常称为折(fold)。 2. 对于每个折,将其作为验证集,其余的折作为训练集。 3. 在每个训练集上训练模型,并在对应的验证集上进行评估。 4. 计算K次验证结果的平均值作为模型的性能指标。 交叉验证可以更准确地评估模型的性能,避免了单次划分数据集可能导致的偶然性结果。常见的交叉验证方法有K折交叉验证、留一交叉验证等。 混淆矩阵(Confusion Matrix)是一种用于衡量分类模型性能的矩阵。它以实际类别和预测类别为基础,将样本分为真正例(True Positive, TP)、真负例(True Negative, TN)、假正例(False Positive, FP)和假负例(False Negative, FN)四种情况。 混淆矩阵的形式如下: 预测为正例 预测为负例 实际为正例 TP FN 实际为负例 FP TN 混淆矩阵可以用于计算多个评估指标,如准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值等,从而更全面地评估模型的分类性能。 ROC曲线(Receiver Operating Characteristic Curve)是一种用于评估二分类模型性能的曲线。它以真正例率(True Positive Rate, TPR)为纵轴,假正例率(False Positive Rate, FPR)为横轴,绘制出模型在不同阈值下的性能。 ROC曲线的横轴表示模型的假正例率,纵轴表示模型的真正例率。曲线越靠近左上角,说明模型的性能越好。ROC曲线下的面积(Area Under Curve, AUC)可以用来衡量模型的整体性能,AUC值越大,模型性能越好。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值