Sensitivity, specificity, positive prediction rate,negative prediction rate, misclassification error

ZeroSnowy

已于 2024-10-03 17:24:26 修改

阅读量824

点赞数 5

分类专栏：统计Statistics笔记基本概念文章标签：笔记

于 2024-10-03 17:12:09 首次发布

本文链接：https://blog.csdn.net/TuringSnowy/article/details/142693695

版权

统计Statistics笔记同时被 2 个专栏收录

19 篇文章 0 订阅

订阅专栏

基本概念

15 篇文章 0 订阅

订阅专栏

在统计学和机器学习中，敏感性（Sensitivity）、特异性（Specificity）、阳性预测值（Positive Prediction Rate, PPV）、阴性预测值（Negative Prediction Rate, NPV）和误分类错误（Misclassification Error）是评估分类模型性能的常用指标。以下是每个指标的定义：

敏感性（Sensitivity）：
• 也称为真正率（True Positive Rate, TPR）或召回率（Recall）。
• 定义：所有实际正例中被正确预测为正例的比例。
• 计算公式：
$\text{Sensitivity} = \frac{TP}{TP + FN}$
• 其中 TP 是真正例（True Positives），FN 是假负例（False Negatives）。
特异性（Specificity）：
• 也称为真负率（True Negative Rate, TNR）。
• 定义：所有实际负例中被正确预测为负例的比例。
• 计算公式：
$\text{Specificity} = \frac{TN}{TN + FP}$
• 其中 TN 是真负例（True Negatives），FP 是假正例（False Positives）。
阳性预测值（Positive Prediction Rate, PPV）：
• 也称为精确度（Precision）。
• 定义：所有预测为正例的样本中实际为正例的比例。
• 计算公式：
$\text{PPV} = \frac{TP}{TP + FP}$
阴性预测值（Negative Prediction Rate, NPV）：
• 定义：所有预测为负例的样本中实际为负例的比例。
• 计算公式：
$\text{NPV} = \frac{TN}{TN + FN}$
误分类错误（Misclassification Error）：
• 定义：所有预测错误的样本占总样本的比例。
• 计算公式：
$\text{Misclassification Error} = \frac{FP + FN}{TP + FN + TN + FP}$
• 或者，它也可以表示为 1 减去准确率（Accuracy）：
$\text{Misclassification Error} = 1 - \text{Accuracy}$
• 其中 Accuracy 是所有正确预测的样本（包括正例和负例）占总样本的比例。

这些指标在不同的应用场景中可能会有不同的重要性。例如，在医疗诊断中，可能会更关注敏感性 sensitivity (recall)，以确保尽可能多的实际病例被检测出来；
而在需要减少误报的场景（如信用卡欺诈检测）中，可能会更关注特异性 specificity。
误分类错误则是一个综合指标，提供了模型整体性能的概览。

实际例子

在不同的实际应用场景中，关注的性能指标可能会有所不同，这取决于问题的上下文和两类错误（False Positives, FP 和 False Negatives, FN）的相对成本。以下是十个例子，说明在不同情况下可能关注哪个指标，以及如何对待 FP 和 FN：

医疗诊断测试：
• 关注指标：敏感性（Sensitivity）。
• 对待错误：宁愿有假阳性（FP），也不愿意漏诊（FN），因为漏诊可能导致病情恶化。
信用卡欺诈检测：
• 关注指标：特异性（Specificity）。
• 对待错误：尽量减少假阳性（FP），因为这会导致错误地标记正常交易为欺诈，给客户带来不便。
垃圾邮件过滤：
• 关注指标：特异性（Specificity）。
• 对待错误：避免将正常邮件误判为垃圾邮件（FP），以免用户错过重要信息。
疫情控制：
• 关注指标：敏感性（Sensitivity）。
• 对待错误：在疫情爆发初期，更倾向于隔离更多的人（FP），以防止疫情扩散，而不是漏掉潜在的感染者（FN）。
刑事司法系统：
• 关注指标：特异性（Specificity）和阴性预测值（NPV）。
• 对待错误：避免错判无辜（FP），因为这可能导致严重的法律和道德问题。
产品质量控制：
• 关注指标：敏感性（Sensitivity）。
• 对待错误：在产品出厂前，更倾向于淘汰更多的产品（FP），以确保只有高质量的产品进入市场。
洪水预测系统：
• 关注指标：敏感性（Sensitivity）。
• 对待错误：在可能发生洪水的情况下，更倾向于发出预警（FP），即使有时候可能是虚惊一场，也比漏掉真正的洪水（FN）要好。
机场安检：
• 关注指标：特异性（Specificity）。
• 对待错误：尽量减少误报（FP），以免造成不必要的延误和乘客的不便。
疾病筛查：
• 关注指标：敏感性（Sensitivity）。
• 对待错误：在疾病筛查中，更希望确保所有可能的病例都被检测出来（即使有些是误报），以便及时治疗。
股市交易算法：
• 关注指标：阳性预测值（PPV）。
• 对待错误：在推荐股票时，更关注推荐的股票确实会上涨（减少 FP），而不是推荐的股票数量。
网络安全入侵检测系统：
• 关注指标：敏感性（Sensitivity）。
• 对待错误：更关注于检测到所有潜在的安全威胁（即使这可能导致一些误报 FP），以防止真正的安全漏洞被遗漏。
自动驾驶汽车的碰撞避免系统：
• 关注指标：敏感性（Sensitivity）。
• 对待错误：宁愿错误地预测即将发生的碰撞（FP），也不愿错过真正的碰撞风险（FN），因为这关系到乘客的安全。
招聘筛选过程：
• 关注指标：特异性（Specificity）。
• 对待错误：希望减少错误地淘汰合格候选人的情况（FP），以确保不错过优秀的人才。
天气预报：
• 关注指标：敏感性（Sensitivity）。
• 对待错误：更倾向于预测恶劣天气（FP），即使有时候可能没有发生，也比错过真正的恶劣天气事件（FN）要好。
疫情隔离政策：
• 关注指标：敏感性（Sensitivity）。
• 对待错误：在疫情爆发期间，可能会采取广泛的隔离措施，即使这意味着错误地隔离一些健康人（FP），以确保病毒不会传播。
法律合规性检查：
• 关注指标：特异性（Specificity）。
• 对待错误：希望减少错误地指控无辜者违反法律的情况（FP），以保护个人的权利。
机器视觉检测产品质量：
• 关注指标：敏感性（Sensitivity）。
• 对待错误：在检测产品缺陷时，更倾向于标记出更多的产品进行检查（FP），以确保不良品不会流入市场。
面部识别系统：
• 关注指标：特异性（Specificity）和阴性预测值（NPV）。
• 对待错误：希望减少错误地识别身份的情况（FP），以保护用户的隐私和安全。
股市分析工具：
• 关注指标：阳性预测值（PPV）。
• 对待错误：希望减少推荐错误股票的情况（FP），以提高投资者对工具的信任度。
疫情疫苗接种策略：
• 关注指标：敏感性（Sensitivity）。
• 对待错误：在疫苗接种策略中，可能会倾向于为更多的人接种疫苗（FP），即使有些人可能并不需要，以确保覆盖所有高风险人群。