两类错误率、Neyman-Pearson 决策与 ROC 曲线

2.4 两类错误率、Neyman-Pearson 决策与 ROC 曲线

两类错误率

第一类错误率(假阳性率)用 α \alpha α表示,指真实的阴性样本中被错误判断为阳性的比例。
第二类错误率(假阴性率)用 β \beta β表示,指真实的阳性样本中被错误判断为阴性的比例。
灵敏度表示在真正的阳性样本中有多少比例能被正确检测出来
S n = T P T P + F N ( 2 − 32 ) Sn = \dfrac {TP} {TP+FN} \quad(2-32) Sn=TP+FNTP(232)
特异度表示在真正的阴性样本中有多少比例没有被误判
S p = T N T N + F P ( 2 − 33 ) Sp = \dfrac {TN} {TN+FP} \quad(2-33) Sp=TN+FPTN(233)
因此:
S n = 1 − β ( 2 − 34 ) S p = 1 − α ( 2 − 35 ) Sn = 1 - \beta \quad(2-34) \newline Sp = 1 - \alpha \quad(2-35) Sn=1β(234)Sp=1α(235)

Neyman-Pearson决策

有时我们希望保证某一类错误率为一个固定的水平,在此前提下再考虑另一类错误率尽可能低。即
min ⁡ P 1 ( e ) s . t . P 2 ( e ) − ϵ 0 = 0 ( 2 − 36 ) \min P_1(e) \newline s.t. P_2(e) - \epsilon_0 = 0 \quad(2-36) minP1(e)s.t.P2(e)ϵ0=0(236)
可以用拉格朗日乘子法将(2-36)中有约束的极值问题转化为无约束的极值问题
min ⁡ γ = P 1 ( e ) + λ ( P 2 ( e ) − ϵ 0 ) ( 2 − 37 ) \min \gamma = P_1(e) + \lambda(P_2(e) - \epsilon_0) \quad(2-37) minγ=P1(e)+λ(P2(e)ϵ0)(237)
并且有
∫ R 2 p ( x ∣ ω 1 ) d x = 1 − ∫ R 1 p ( x ∣ ω 1 ) d x ( 2 − 38 ) \int_{R_2} p(x|\omega_1) dx = 1 - \int_{R_1} p(x|\omega_1) dx \quad(2-38) R2p(xω1)dx=1R1p(xω1)dx(238)
将(2-16)和(2-38)代入(2-37)化简得
γ = ∫ R 2 p ( x ∣ ω 1 ) d x + λ [ ∫ R 1 p ( x ∣ ω 2 ) d x − ϵ 0 ] = ( 1 − λ ϵ 0 ) + ∫ R 1 [ λ p ( x ∣ ω 2 ) − p ( x ∣ ω 1 ) ] d x ( 2 − 39 ) \gamma = \int_{R_2}p(x|\omega_1) dx + \lambda [\int_{R_1} p(x|\omega_2) dx - \epsilon_0] \newline =(1-\lambda \epsilon_0) + \int_{R_1}[\lambda p(x|\omega_2) - p(x|\omega_1)] dx \quad(2-39) γ=R2p(xω1)dx+λ[R1p(xω2)dxϵ0]=(1λϵ0)+R1[λp(xω2)p(xω1)]dx(239)
分别对 λ \lambda λ和决策边界 t t t求导

R 1 R_1 R1 区域为 ( − ∞ , t ) (-\infin,t) (,t) ,因此对 t t t 求导就是变上限积分求导

λ = p ( x ∣ ω 1 ) p ( x ∣ ω 2 ) ( 2 − 40 ) \lambda = \dfrac {p(x|\omega_1)} {p(x|\omega_2)} \quad(2-40) λ=p(xω2)p(xω1)(240)
∫ R 1 p ( x ∣ ω 2 ) d x = ϵ 0 ( 2 − 41 ) \int_{R_1}p(x|\omega_2)dx = \epsilon_0 \quad(2-41) R1p(xω2)dx=ϵ0(241)
在(2-39)中,要使 γ \gamma γ最小,应选择 R 1 R_1 R1使积分项内全为负值,因此
λ p ( x ∣ ω 2 ) − p ( x ∣ ω 1 ) < 0 ( 2 − 42 ) \lambda p(x|\omega_2) - p(x|\omega_1) < 0 \quad(2-42) λp(xω2)p(xω1)<0(242)
所以决策规则为
若 l ( x ) = p ( x ∣ ω 1 ) p ( x ∣ ω 2 ) ≷ λ ,则 x ∈ { ω 1 ω 2 ( 2 − 43 ) 若l(x) = \dfrac {p(x|\omega_1)} {p(x|\omega_2)} \gtrless \lambda,则x \isin \begin{cases} \omega_1 \\ \omega_2 \end{cases} \quad(2-43) l(x)=p(xω2)p(xω1)λ,则x{ω1ω2(243)

补充:在数理统计学中,似然函数(英语:likelihood function)是一种关于统计模型中的参数的函数,表示模型参数中的似然性(英语:likelihood)。概率,用于在已知一些参数的情况下,预测接下来在观测上所得到的结果;似然性,则是用于在已知某些观测所得到的结果时,对有关事物之性质的参数进行估值。
举例:
考虑抛硬币实验,我们已知抛硬币时正面(H)朝上的概率 p H = 0.5 p_H = 0.5 pH=0.5,因此我们可以求出连续两次正面朝上的概率 p H H = 0. 5 2 = 0.25 p_{HH} = 0.5^2 = 0.25 pHH=0.52=0.25
但假设我们现在并不知道单独抛一次硬币时正面朝上的概率是多少,我们知道抛硬币得到的结果,假设我们实际抛三次硬币得到两次正面朝上,估计正面朝上的概率 p H = 0.5 p_H = 0.5 pH=0.5 p H = 0.6 p_H = 0.6 pH=0.6哪个结果更有可能。用事件A来表示上面的结果,则 p ( A ∣ p H ) = 3 p H 2 ( 1 − p H ) p(A|p_H) = 3 p_H^2 (1-p_H) p(ApH)=3pH2(1pH),将 p H = 0.5 p_H = 0.5 pH=0.5 p H = 0.6 p_H = 0.6 pH=0.6代入上式得 P ( A ∣ p H = 0.5 ) = 0.375 P(A|p_H = 0.5) = 0.375 P(ApH=0.5)=0.375 P ( A ∣ p H = 0.6 ) = 0.432 P(A|p_H = 0.6) = 0.432 P(ApH=0.6)=0.432 ,因此在这个结果下 p H = 0.6 p_H = 0.6 pH=0.6 更有可能。
但我们单独看 0.375 与 0.432 这两个数字是没有意义的,似然性与概率不同,因为似然性的和并不等于 1 。
三次投掷中头两次正面朝上,第三次反面朝上时的似然函数
三次投掷中头两次正面朝上,第三次反面朝上时的似然函数

引入似然比,用似然比密度函数来确定 λ \lambda λ值。似然比为 l ( x ) = p ( x ∣ ω 1 ) p ( x ∣ ω 2 ) l(x) = \dfrac {p(x|\omega_1)} {p(x|\omega_2)} l(x)=p(xω2)p(xω1),似然比密度函数为 p ( l ∣ ω 2 ) p(l|\omega_2) p(lω2),将(2-41)变为
P 2 ( e ) = 1 − ∫ 0 λ p ( l ∣ ω 2 ) d l = ϵ 0 ( 2 − 44 ) P_2(e) = 1 - \int_0^\lambda p(l|\omega_2)dl = \epsilon_0 \quad(2-44) P2(e)=10λp(lω2)dl=ϵ0(244)

这里的似然比建立了变量 l l l与变量 x x x的关系,因此似然比密度函数,应该是将原本的类条件概率密度函数 p ( x ∣ ω 2 ) p(x|\omega_2) p(xω2)中的 x x x通过变量代换替换成了 l l l,因此积分区域由 ( − ∞ , t ) (-\infin,t) (,t)变为了 ( λ , + ∞ ) (\lambda,+\infin) (λ,+)
在这里插入图片描述

ROC曲线

以假阳性率为横坐标,以真阳性率为纵坐标
在这里插入图片描述
AUC(area under ROC curves)曲线下的相对面积

参考
张学工. 模式识别. 第三版. 北京:清华大学出版社,2010
张学工,汪小我. 模式识别与机器学习. 第四版. 北京:清华大学出版社,2021
部分图片来源于网络

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

max_lfy99

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值