DeLong检验

居敬行简

已于 2024-02-18 20:50:35 修改

阅读量2.2k

点赞数 30

文章标签：概率论机器学习线性代数

于 2024-02-14 23:49:31 首次发布

本文链接：https://blog.csdn.net/Fred114/article/details/136117283

版权

这篇是对DeLong本人的推导的翻译，不关心推导的直接跳到最后看Delong的举例，很清晰明了

理论背景

假设一个 $N$ 个个体的样本进行了一个测试，以预测感兴趣的事件或确定是否存在疾病，并且该测试基于一个连续值诊断变量。我们将遵循以下惯例，即假设测试变量的较高值与感兴趣的事件相关，例如，阳性疾病状态。也假设它可以通过独立于测试的方法来确定。
样本中中有 $m$ 个人真正经历了这个事件或有了这个条件，该组别用 $C_1$ 表示，让没有这个条件的 $n (= N - m)$ 名个体的组用 $C_2$ 表示。设 $X_i(i = 1,2,...,m)$ 和 $Y_j(j = 1,2,...,n)$ 分别为 $C_1$ 和 $C_2$ 成员的诊断测试所基于的变量的值。这些结果值可以用来构建一个经验性的ROC曲线，以评估该试验的诊断性能。对于任意实数阈值 $z$ ，我们可以定义模型敏感度(Sensitivity)和特异度(Specificity)如下
$\begin{aligned} &Sens(z)=\frac{1}{m}\sum^m_{i=1}I(X_i\ge z)\\ &Spec(z)=\frac{1}{n}\sum^n_{j=1}I(Y_j< z) \end{aligned}$
其中 $I (.)$ 为指示函数，
上述定义中 $S e n s (z)$ 是一个检验的经验敏感度，该检验是根据阈值 $z$ 将变量二分为阳性或阴性结果，而 $Sp ec (z)$ 是相应的经验特异度。现在，由于 $z$ 随变量的可能值而变化，经验ROC曲线是由纵坐标 $S e n s (z)$ 与横坐标 $[1 - Sp ec (z)]$ 的图。显然，当 $z$ 大于可能的最大值时，曲线通过 $(0, 0)$ ，当z减少到可能的最小值时，它单调地增加到点 $(1, 1)$ 。为了提供信息，整个曲线应该位于 $45^{\circ}$ 线以上，其中 $S e n s (z) = 1 - Sp ec (z)$ 。对最佳切点的选择可以基于依赖敏感度和特异度构建的代价函数。
结果表明，用梯形规则计算的经验ROC曲线下的面积等于应用于两个样本 ${X_i}$ 和 ${Y_j}$ 的Mann-Whitney双样本秩和检验。因为Mann-Whitney检验是一个广义的U检验(基于正态分布的均数检验)，关于诊断测试性能的统计分析可以通过利用U检验的一般理论来执行。
Mann-Whitney统计量估计了从 $C_2$ 代表的总体中随机选择的观察结果将小于或等于从 $C_1$ 代表的总体中随机选择的观察结果的概率0。它可以计算为一个核上的平均值， $\psi$ ，如
$\hat{\theta}= \frac{1}{mn}\sum\limits_{j=1}^{n}\sum\limits_{i=1}^{m}\psi (X_i,Y_j)$ ,
其中
$\psi(X,Y)= \begin{cases} 1\qquad Y<X \\\frac{1}{2}\qquad Y=X \\0\qquad Y>X \end{cases}$ ,
定义
$\begin{aligned} &\xi_{10}=E[\psi(X_i, Y_j)\psi(X_i,Y_k)]-\theta^2,\quad j\ne k;\\ &\xi_{01}=E[\psi(X_i, Y_j)\psi(X_k,Y_j)]-\theta^2,\quad i\ne k;\\ &\xi_{11}=E[\psi(X_i, Y_j)\psi(X_i,Y_j)]-\theta^2. \end{aligned}\tag{1}$

统计量

根据Bamber(1975)提供的估计单个ROC曲线方差的方法，结合上面的定义，继而得到协方差为
$var(\hat{\theta})=\frac{(n-1)\xi_{10}+(m-1)\xi_{01}}{mn}+\frac{\xi_{11}}{mn}\tag{2}$
不妨令向量 $\boldsymbol{\hat{\theta}}=(\hat{\theta}^{1},\hat{\theta}^{2},...,\hat{\theta}^{k})$ 其中统计量 $\hat{\theta}^r$ 代表由第r个集合 $\{X^r_i|i=1,2,...,m\},\{Y^r_j|j=1,2,...,n\}$ 计算出的ROC曲线下面积，其中 $1\leq r\leq k$
因此，类比(1)式，有
$\begin{aligned} &\xi^{rs}_{10}=E[\psi(X_i, Y_j)\psi(X_i,Y_k)]-\theta^r\theta^s,\quad j\ne k;\\ &\xi^{rs}_{01}=E[\psi(X_i, Y_j)\psi(X_k,Y_j)]-\theta^r\theta^s,\quad i\ne k;\\ &\xi^{rs}_{11}=E[\psi(X_i, Y_j)\psi(X_i,Y_j)]-\theta^r\theta^s. \end{aligned}\tag{3}$
第r和第s个集合的协方差可写作
$cov(\hat{\theta}^r,\hat{\theta}^s)=\frac{(n-1)\xi^{rs}_{10}+(m-1)\xi^{rs}_{01}}{mn}+\frac{\xi^{rs}_{11}}{mn}\tag{4}$
对于第r个统计量 $\hat{\theta}^r$ ，将其中的正例组份X和反例组份Y可被分别定义为
$\begin{aligned} V^r_{10}(X_i)=\frac{1}{n}\sum\limits^n_{j=1}\psi(X^r_i,Y^r_j)\quad(i=1,2,...,m)\\ V^r_{01}(Y_j)=\frac{1}{m}\sum\limits^m_{i=1}\psi(X^r_i,Y^r_j)\quad(j=1,2,...,n) \end{aligned}$
并且定义 $k\times k$ 矩阵 $\boldsymbol{S}_{10}$ ,其中r行，s列元素为
$s^{rs}_{10}=\frac{1}{m-1}\sum\limits^m_{i=1}[V^r_{10}(X_i)-\hat{\theta^r}][V^s_{10}(X_i)-\hat{\theta}^s]$
同理可以定义 $\boldsymbol{S}_{10}$ ,其中r行，s列元素为
$s^{rs}_{01}=\frac{1}{n-1}\sum\limits^n_{j=1}[V^r_{01}(Y_j)-\hat{\theta^r}][V^s_{01}(Y_j)-\hat{\theta}^s]$
基于统计量向量 $\boldsymbol{\hat{\theta}}$ ,则有
$\boldsymbol{S}=\frac{1}{m}\boldsymbol{S}_{10}+\frac{1}{n}\boldsymbol{S}_{01}$

统计分布

设 $g$ 是 $\boldsymbol{\hat{\theta}}$ 的实值函数，它在邻域 $\boldsymbol{\theta}$ 处的二阶导数有界。结合Sen（1960）和Arveson（1969，定理16）的结果可知，如果 $\lim_{N \to \infty}\frac{m}{n}$ 有界且非零，那么 $N^{\frac{1}{2}}[g(\boldsymbol{\hat{\theta}}) - g(\boldsymbol{\theta})]$ 是渐近正态分布的，均值为0，方差为 $\sigma^2_g$ ，其中
$\sigma^2_g=\lim_{N \to \infty}\sum^k_{j=1}\sum^k_{i=1}\frac{\partial g}{\partial \theta^i}\frac{\partial g}{\partial \theta^j}(\frac{1}{m}\xi^{i,j}_{10}+\frac{1}{n}\xi^{i,j}_{01}).$
进一步可得到对 $\sigma^2_g$ 的无偏估计
$s^2_g=N\sum^k_{j=1}\sum^k_{i=1}\frac{\partial g}{\partial \theta^i}\frac{\partial g}{\partial \theta^j}(\frac{1}{m}s^{i,j}_{10}+\frac{1}{n}s^{i,j}_{01}).$

举例

对于已知的卵巢癌患者，何时进行手术矫正肠梗阻是一个尚未解决的问题。两难的问题在于确定手术的好处。Castelado等人（1981）和其他作者提出，术后存活时间超过2个月的患者可以被宣布从手术中“受益”。利用这一标准，Krebs和Goplerud（1983）设计了一个术前评分系统，作为一种筛选测试来确定患者未能从手术中获益的风险。评分算法如表1所示。根据该评分系统，评分较低的患者应该是手术候选人，评分较高的患者应该考虑无法从手术中获益的风险。
下面的例子评估了所提出的筛查算法对杜克大学医学中心连续接受肠梗阻矫正的卵巢癌患者的鉴别能力。在49例患者中，12例术后存活超过2个月，可以被认为是手术成功；其余37例被认为是失败的。将Krebs-Goplerud评分（K-G）与另外两种术前测量的指标：总蛋白（TP）和白蛋白（ALB）进行比较，这两种指标都与患者的营养状况呈正相关。因为ALB是TP的一个组成部分，这两个测量值高度相关，与Kendall的tau-b值为0.65。ALB和TP水平的升高与更好的营养状况相关，而K-G水平的升高与较差的预后相关。
图1显示了三个指标的经验ROC曲线。从这个数字来看，K-G比ALB或TP几乎没有什么改善。K-G、ALB和TP在曲线下的估计面积分别为0.69、0.72和0.65，即 $\boldsymbol{\hat{\theta}}=(0.69,0.72,0.65)$ 。
对于这个例子，有12 X和三个感兴趣的变量，所以x分量形成一个12 x 3矩阵， $V_{10}$ 。37 Y产生一个维数为37 x 3， $V_{01}$ 的分量矩阵。3 x 3矩阵 $S_{10}$ 和 $S_{01}$ 按以下方式计算：
$\begin{aligned} &S_{10}=\frac{1}{11}(\boldsymbol{V}^{T}_{10}\boldsymbol{V}_{10}-12\boldsymbol{\hat{\theta}}^T\boldsymbol{\hat{\theta}})\\ &S_{01}=\frac{1}{36}(\boldsymbol{V}^{T}_{01}\boldsymbol{V}_{01}-37\boldsymbol{\hat{\theta}}^T\boldsymbol{\hat{\theta}}) \end{aligned}$
在这里插入图片描述
可见， $S_{10}$ 和 $S_{01}$ 分别是 $V_{10}$ 和 $V_{01}$ 的协方差矩阵。它们可以很容易地从任何计算协方差矩阵的计算机程序中得到。而面积向量的协方差矩阵则为
$\boldsymbol{S}=\frac{1}{12}\boldsymbol{S_{10}}+\frac{1}{37}\boldsymbol{S_{01}}$

在这里插入图片描述
结果展示于表2.
现在，为了将K-G与ALB和TP的平均值进行比较，我们使用对比度 $\boldsymbol(L)=(1,-0.5,-0.5)$ 。在0时，对比度值为0.004。该估计值的标准差 $\sigma$ 为
$(\boldsymbol{LSL^T})^{\frac{1}{2}}=0.116$
因此，该对比的双侧95%置信区间为 $(- 0.223, 0.231)$ ，表明K-G比ALB和TP的改善可以忽略不计。

Reference：
1.DeLong, E. R., DeLong, D. M., & Clarke-Pearson, D. L. (1988). Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach. Biometrics, 44(3), 837-845. https://pubmed.ncbi.nlm.nih.gov/3203132