Sklearn - metrics 源码阅读_r方计算python sklearn.metrics 源码-CSDN博客

本文链接：https://blog.csdn.net/jark_/article/details/77507773

本文通过解析sklearn源码中的roc_curve函数，详细介绍了如何计算ROC曲线和AUC值。并给出了具体的实例和计算步骤，帮助读者理解True Positive Rate (TPR)和False Positive Rate (FPR)的计算方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　想知道sklearn的roc曲线和auc是怎么计算的。所以专门阅读了sklearn的源码。
　　/scikit-learn-master/sklearn/metrics/ranking.py
　　其中有两个函数值得注意：_binary_clf_curve 和 roc_curve。所以特此举个例子将源码review一遍。

#init y_true and y_score
y_true = np.array([1, 1, 2, 2])
y_score = np.array([0.1, 0.4, 0.35, 0.8])

# output the number of classes
classes = np.unique(y_true)
classes     #array([1, 2])

#判断classes是否符合条件，例如：
np.array_equal(classes, [1]) # False

pos_label = 1   #默认值，如果不是1,0 不设置的话会报错，报错内容为："Data is not binary and pos_label is not specified"
y_true = (y_true == pos_label)  #将y_true 和pos_label比较，输出为：array([ True,  True, False, False], dtype=bool)

#y_score 最大值对应的索引 + reverse
desc_score_indices = np.argsort(y_score, kind="mergesort")[::-1]     #输出为：[3 1 2 0]

y_score = y_score[desc_score_indices]
print(y_score)   #[ 0.8   0.4   0.35  0.1 ]
y_true = y_true[desc_score_indices]
print(y_true)    #[False  True False  True]


distinct_value_indices = np.where(np.diff(y_score))[0]
print(distinct_value_indices)  #[0 1 2]
threshold_idxs = np.r_[distinct_value_indices, y_true.size - 1]
print(threshold_idxs)          #[0 1 2 3]

tps = np.cumsum(y_true)[threshold_idxs]  #array([0, 1, 1, 2], dtype=int32)
fps = 1 + threshold_idxs - tps   #array([1, 1, 2, 2], dtype=int64)

fpr = fps / fps[-1]  #array([ 0. ,  0.5,  0.5,  1. ,  1. ])
tpr = tps / tps[-1]  #array([ 0. ,  0. ,  0.5,  0.5,  1. ])