Dr_long1996-CSDN博客

缺失数据的分类：（1）完全随机缺失若谋变量的缺失数据与其他任何观测或未观测变量都不相关，则数据为完全随机缺失（MCAR）。（2）随机缺失若某变量上的缺失数据与其他观测变量相关，与他自己的未观测值不相关，则数据为随机缺失（MAR）。（3）非随机缺失若缺失数据不属于MCAR和MAR，则数据为非随机缺失（NMAR）。大部分处理缺失数据的方法都是假定数据是MCAR或MAR，此时可以忽略缺失数据的生成机制，并且（在替换或删除缺失数据后）可以直接对感兴趣的关系进行建模。

2024-01-22 23:06:30 1836 1

原创 8.临床预测模型验证——交叉验证/Bootstrap法

将一定比例的数据挑选出来作为训练集，将其余未选中的样本作为测试集，先在训练集中构建模型，再在测试集中做预测。内部验证：手动将样本随机分为训练集和测试集，先在训练集中构建模型，再在测试集中进行测试。简单交叉验证：将原始的数据随机分成两组，一组作为训练集，一组作为测试集。K折交叉验证：将数据随机分为K个子集，对每个子集分别做一次测试集，其余的K-1组子集数据作为训练集，最终得到K个模型，用K个测试集的平均结果作为K-折交叉验证的性能指标。

2024-01-16 23:20:50 6283

原创 7. 预测模型评价——DCA曲线

ROC曲线分析，主要是评价模型的准确性，但无论如何选择，都会存在假阳性和/或假阴性的问题。如果疾病危害较小，尚无法治愈，则可以适当增加假阴性，避免假阳性；若疾病的危害大且晚发现预后差，则可以适当增加假阳性，避免假阴性。横坐标为阈概率（threshold probability），纵坐标为净获益（ net benefit，NB）。DCA曲线中存在两种极端情况的曲线：1.横的曲线表示所有样本都是阴性，所有人都没有干预，净获益率为0.

2024-01-16 22:08:10 11143 3

原创 7.评价预测模型——C指数，NRI，IDI计算

理解即为343人在新旧模型中被认为是低风险，21在新模型中为中风险，旧模型中为低风险，1人在新模型中高风险，旧模型中低风险，以此类推。在阴性组，预测阳性的概率比旧模型的小。在table3中，c1是原来模型没有预测对，新模型预测对的，同样的道理，b1是原来模型预测对，但新模型给预测错的，于是(c1 − b1)/N1便是疾病组或者event组增加的重分类的正确比。若IDI＞0，则为正改善，说明新模型比旧模型的预测能力有所改善，若IDI＜0，则为负改善，新模型预测能力下降，若IDI=0，则认为新模型没有改善。

2024-01-16 17:37:48 12530 3

原创 7.评价预测模型——Calibration校准曲线

Calibration校准曲线：就是将实际发生率和预测发生率绘制的散点图。是对Hosmer-Lemeshow拟合优度检验的结果可视化。基本原理：首先利用列线图预测每位研究对象的预测值，并将其按从低到高的顺序排列，根据四分位数将队列分为4组（或者根据其他分位数分组），然后分别计算每组研究对象的预测值和相应的实际值得均值，并将两者结合起来作图得到4个校准点，最后将这4个校准点连接起来得到预测校准曲线。

2024-01-14 21:00:43 11675 4

原创 7.评价预测模型——ROC曲线

表中有4个可能结果，其中2个结果表明被评价诊断方法的诊断结果是正确的，即病例被诊断为阳性（真阳性；diag.col参考线颜色，diag.lty参考线类型，curve.col, curve.lty, curve.lwd 设置ROC曲线的颜色，类型，宽度，xaxs，yaxs设置原点相交。拟合优度检验计算每个个体结局事件的预测值，并按照预测值的大小对数据进行分组，一般分为5-10组，进行Hosmer-Lemeshow拟合优度检验，考察预测值与实际值的吻合程度，p>0.05，说明模型拟合效果较好。

2024-01-13 15:45:12 4928 1

原创 6. 临床预测模型——可视化列线图

基本原理：根据多因素模型中各自变量的偏回归系数的大小，给每个自变量进行赋分，然后将各个自变量评分相加得到总评分，根据总评分估计出个体结局事件的预测情况。

2024-01-12 15:17:57 5106 3

原创 4.临床预测模型——竞争风险模型

竞争风险事件：指出现研究对象感兴趣事件的同时，其他终点事件也有可能出现，这些终点事件将阻止感兴趣事件的出现，或使其发生概率降低，各终点事件之间形成所谓的竞争关系。竞争风险模型仅仅关心研究对象发生的第一个终点事件，而后发生的其他终点事件称为删失事件（censoring）。如基线未发生心血管疾病的研究对象在观察期内死于癌症、车祸等其他原因前并未发生心血管疾病，就不能为CVD的发病做出贡献，传统生存分析将其他原因死亡的个体，失访个体和存活个体记为删失数据，会高估CVD的累积发病率。

2024-01-07 22:56:20 3624 3