数据挖掘中的交叉验证、ROC分析与逻辑回归
1. 交叉验证与ROC分析基础
1.1 交叉验证
在交叉验证中,仅使用原始训练数据集的一部分来构建模型,其余部分用于测试模型性能。当确认某种数据挖掘方法(如LDA)具有可接受的性能后,最好使用该方法基于整个原始训练数据集生成最终模型(或参数集)。
1.2 ROC分析概述
接收者操作特征(ROC)曲线分析是另一种常用的评估模型性能的方法。与交叉验证不同,ROC分析仅适用于目标变量恰好有两个不同值的情况,如真与假、正与负。因此,ROC分析不能用于评估前面提到的鸢尾花数据集的LDA模型。
ROC分析在生物医学模型评估中广泛应用,例如诊断测试需要确定样本对于某种疾病是阳性还是阴性。假设研究发现某些血液特征(C1、C2、C3和C4)与某种疾病(D)的识别高度相关,并基于这些特征开发了一个LDA模型来确定患者是否患有该疾病。由于存在分类错误,实际中无法实现完全清晰的分类。在患病组中,有些被正确分类为阳性(真阳性,TP),有些被错误分类为阴性(假阴性,FN);在未患病组中,有些被正确分类为阴性(真阴性,TN),有些被错误分类为阳性(假阳性,FP)。通过调整截断值或其他相关评估指标,TP、FN、FP和TN的数量会发生变化。
1.3 ROC分析的关键概念
| 概念 | 定义 | 计算公式 |
|---|---|---|
| 灵敏度(Sensitivity) | 疾病存在时测试结果为阳 |
交叉验证与逻辑回归应用
订阅专栏 解锁全文
1046

被折叠的 条评论
为什么被折叠?



