ROC曲线深度解析

背景

ROC曲线(Receiver Operating Characteristic curve)是一种广泛用于评价分类模型性能的工具,尤其适用于二分类问题。它通过在不同阈值下计算模型的真阳性率(True Positive Rate, TPR)和假阳性率(False Positive Rate, FPR)来全面评估分类器的表现,随着机器学习的发展,尤其是在医疗诊断、欺诈检测和金融风险控制等领域,ROC曲线成为衡量分类器性能的标准方法

基本概念

                                            ROC曲线作用                                              

ROC曲线的主要作用是评估分类模型的性能,其他评估指标(如精度、查准率等)相比,ROC曲线有以下几个显著的优势:

(1)抗不平衡数据的能力:在处理样本类别不平衡的数据集时,ROC曲线提供了比精度等指标更全面的评价,避免了精度受多数类的偏倚。

(2)不同阈值下的模型性能评估:ROC曲线通过不同的阈值来平衡分类模型的TPR和FPR,可以帮助理解模型在不同的决策点下的表现。

(3)提供AUC值:ROC曲线下的面积(AUC, Area Under the Curve)是一个很好的综合指标,可以通过一个数值直接比较多个模型的优劣。

                                            ROC曲线原理                                              

ROC曲线的构建原理是基于分类器在不同阈值下的表现,为了详细解释ROC的原理,我们可以从二分类问题入手

1.二分类下的ROC原理

在二分类问题中,假设有两个类别:正类(Positive)和负类(Negative),分类器的输出是一个概率值,通常通过设定阈值来决定输出类别。当阈值发生变化时,模型的性能会随之改变。ROC曲线正是在不同阈值下,计算模型的TPR和FPR来绘制的。

真阳性率(TPR, True Positive Rate): 表示被正确预测为正类的正样本占所有正样本的比例,公式为:

TPR=\frac{TP}{TP+FN}  

其中,  TP 为真阳性, FN 为假阴性

假阳性率(FPR, False Positive Rate): 表示被错误预测为正类的负样本占所有负样本的比例,公式为:

FPR=\frac{FP}{FP+TN}  

其中,  FP 为假阳性,  TN 为真阴性

ROC曲线是以FPR为横坐标,TPR为纵坐标绘制的,曲线上的每个点代表一个特定的阈值下分类器的表现。当模型性能较好时,ROC曲线会靠近左上角,这意味着在高TPR的同时保持低FPR。

2.AUC值

AUC(Area Under the Curve)是ROC曲线下的面积。AUC值介于0到1之间,AUC越接近1,模型的区分能力越强。一般情况下,AUC值可以这样理解

(1)0.5:模型没有区分能力,和随机猜测差不多

(2)0.5-0.7:模型具有较低的区分能力

(3)0.7-0.9:模型具有较好的区分能力

(4)0.9-1.0:模型的区分能力非常强

3.多分类问题中的宏平均ROC曲线

ROC曲线通常用于二分类问题,但在多分类问题中也有相应的扩展方法。常见的策略有两种:

(1)一对多(One-vs-Rest,OvR):将多分类问题中的每个类别当作正类,其他类别作为负类,分别计算每个类别的ROC曲线,并计算其AUC值。

宏平均ROC曲线:首先为每个类别分别计算ROC曲线,然后对这些曲线的TPR和FPR在每个阈值下进行平均,得到宏观的ROC曲线。

宏平均AUC:对所有类别的AUC值进行平均,得到一个全局的AUC值,衡量多分类模型的整体性能。

(2)一对一(One-vs-One,OvO):在每两个类别之间计算二分类的ROC曲线和AUC值,最后通过一定的加权方式计算整体的AUC。

4.扩展到多分类的宏平均ROC曲线

在多分类问题中,ROC曲线的构建比较复杂,主要因为我们需要针对每个类别计算一条ROC曲线并求平均。宏平均ROC的步骤如下:

(1)针对每一个类别,计算它与所有其他类别的ROC曲线,即将该类别视为正类,其他类别视为负类

(2)对于每一类ROC曲线,记录不同阈值下的TPR和FPR

(3)将所有类别的ROC曲线进行平均,得到宏观的ROC曲线

总结

ROC曲线作为分类器评估的经典方法,在处理二分类和多分类问题时都具有广泛的应用。对于二分类问题,ROC曲线能够直观地展示模型的分类能力;在多分类问题中,通过宏平均ROC,可以得到一个全局的评价指标。AUC作为ROC曲线的衍生指标,为模型的比较提供了更简洁有效的方式。

代码实现:二分类模型下的ROC曲线绘制

数据读取

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.family'] = 'Times New Roman'
plt.rcParams['axes.unicode_minus'] = False

df = pd.read_excel("heart.xlsx")
df.head()

该数据集是来自UCI机器学习库的经典心脏病数据集(Heart Disease Dataset)。该数据集用于预测是否存在心脏病,并且标签变量(num 列)包含多个类别,属于一个多分类任务,接下来将利用这个数据集构建机器学习模型,用其绘制宏平均ROC曲线

数据分割

from sklearn.model_selection import train_test_split

X = df.drop(['num'], axis=1)
y = df['num']

# 分割数据集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, 
                                                    random_state=42, stratify=df['num'])

使用train_test_split函数将特征数据X和目标标签y按8:2的比例划分为训练集和测试集,其中test_size=0.2表示20%的数据用于测试,random_state=42确保分割结果可重复,stratify=df['num']根据标签num的类别比例进行分层抽样

构建RF模型用于宏平均ROC绘制

from sklearn.ensemble import RandomForestClassifier

# 构建随机森林模型,并设置多个参数
rf_model = RandomForestClassifier(
    n_estimators=100,        # 森林中树的数量,更多的树通常能提高模型的性能,但计算开销也会增加
    max_depth=10,            # 树的最大深度,防止树过深导致过拟合。较小的深度可能导致欠拟合
    min_samples_split=5,     # 每个节点至少需要有5个样本才能继续分裂,增大可以防止过拟合
    min_samples_leaf=2,      # 每个叶子节点至少要有2个样本,防止叶子节点过小导致模型过拟合
    max_features='sqrt',     # 每次分裂时考虑的特征数量,'sqrt' 表示使用特征数量的平方根,能提高模型的泛化能力
    bootstrap=True,          # 是否在构建每棵树时进行有放回的抽样,True 是默认设置,可以减少模型的方差
    oob_score=True,          # 是否使用袋外样本来评估模型的泛化能力,开启此项可以进行无偏验证
    random_state=42,         # 保证结果可重复,设置随机数种子
    class_weight='balanced'  # 类别权重,适用于样本不均衡的情况,'balanced' 自动调整类别权重
)

# 训练模型
rf_model.fit(X_train, y_train)

 通过设置参数构建随机森林模型RandomForestClassifier,并使用训练数据X_train和y_train进行模型训练,以便后续用于计算宏平均ROC曲线并绘制其性能表现

计算多分类任务的宏平均ROC与AUC

from sklearn import metrics
from sklearn.preprocessing import label_binarize
# 预测并计算概率
ytest_proba_rf = rf_model.predict_proba(X_test)

# 将y标签转换成one-hot形式
ytest_one_rf = label_binarize(y_test, classes=[0, 1, 2])

# 宏平均法计算AUC
rf_AUC = {}
rf_FPR = {}
rf_TPR = {}

for i in range(ytest_one_rf.shape[1]):
    rf_FPR[i], rf_TPR[i], thresholds = metrics.roc_curve(ytest_one_rf[:, i], ytest_proba_rf[:, i])
    rf_AUC[i] = metrics.auc(rf_FPR[i], rf_TPR[i])
print(rf_AUC)

# 合并所有的FPR并排序去重
rf_FPR_final = np.unique(np.concatenate([rf_FPR[i] for i in range(ytest_one_rf.shape[1])]))

# 计算宏平均TPR
rf_TPR_all = np.zeros_like(rf_FPR_final)
for i in range(ytest_one_rf.shape[1]):
    rf_TPR_all += np.interp(rf_FPR_final, rf_FPR[i], rf_TPR[i])
rf_TPR_final = rf_TPR_all / ytest_one_rf.shape[1]

# 计算最终的宏平均AUC
rf_AUC_final = metrics.auc(rf_FPR_final, rf_TPR_final)
AUC_final_rf = rf_AUC_final  # 最终AUC

print(f"Macro Average AUC with Random Forest: {AUC_final_rf}")

 通过将多分类标签转换为One-hot编码形式,计算每个类别的ROC曲线和AUC值,然后合并各类别的假阳性率(FPR)并插值计算出宏平均真阳性率(TPR),最终使用宏平均法计算出随机森林模型在多分类任务下的整体ROC曲线和宏平均AUC值,以评估模型的综合分类性能,类别0的AUC值为 0.9372,表示模型在该类别上的分类性能非常好,类别1的AUC值为 0.5982,表示模型在该类别上的分类效果较差,类别2的AUC值为 0.7672,表示模型在该类别上的分类效果较为中等,最终的宏平均AUC为 0.7818,表示在所有类别上,模型整体的分类性能还算不错,但在类别1上的表现较弱,拉低了整体的平均表现

宏平均ROC绘制

plt.figure(figsize=(10, 10), dpi=1200)
# 使用不同的颜色和线型
plt.plot(rf_FPR[0], rf_TPR[0], color='#1f77b4', linestyle='-', label='Class 0 ROC  AUC={:.4f}'.format(rf_AUC[0]), lw=2)
plt.plot(rf_FPR[1], rf_TPR[1], color='#ff7f0e', linestyle='-', label='Class 1 ROC  AUC={:.4f}'.format(rf_AUC[1]), lw=2)
plt.plot(rf_FPR[2], rf_TPR[2], color='#2ca02c', linestyle='-', label='Class 2 ROC  AUC={:.4f}'.format(rf_AUC[2]), lw=2)
# 宏平均ROC曲线
plt.plot(rf_FPR_final, rf_TPR_final, color='#000000', linestyle='-', label='Macro Average ROC  AUC={:.4f}'.format(rf_AUC_final), lw=3)
# 45度参考线
plt.plot([0, 1], [0, 1], color='gray', linestyle='--', lw=2, label='45 Degree Reference Line')
plt.xlabel('False Positive Rate (FPR)', fontsize=15)
plt.ylabel('True Positive Rate (TPR)', fontsize=15)
plt.title('Random Forest Classification ROC Curves and AUC', fontsize=18)
plt.grid(linestyle='--', alpha=0.7)
plt.legend(loc='lower right', framealpha=0.9, fontsize=12)
plt.savefig('RF_optimized.pdf', format='pdf', bbox_inches='tight')
plt.show()


这里绘制随机森林模型在多分类任务中的ROC曲线,包括每个类别的ROC曲线、宏平均ROC曲线以及随机猜测的参考线,图中还显示了每个类别及宏平均的AUC值,用于评估模型的分类性能,具体解释前文已给出

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值