在对临床数据的探索分析工作中,我们经常会使用Logistic回归分析去探索影响疾病的发生、发展的重要影响因素,或应用Logistic回归模型进行相关的预测分析。但是在进行Logistic回归分析时,样本含量的估计常常是令临床科研工作者最头痛的一件事了。常常纠结选哪些作为自变量或选多少个合适,因为大家通常采取的办法是选取研究中拟纳入的协变量个数的10~15倍(也有教科书上指出:经验上病例和对照的人数应该至少各有30~50例)作为样本含量的估计值。但大家应该注意,这个条件仅满足了多因素Logistic回归分析时数学运算所需的最低要求,这并不能保证足够的检验效能;此外,当研究设计阶段对协变量信息认识不全面时,也给样本含量的估计带来了困难。
由于Logistic回归主要描述了因变量和自变量间的一种非线性的关系,在进行Logistic回归分析的样本量估算时应根据其各自不同的适用条件选取不同的估算公式。不同的软件采用的样本量计算公式有所差异PASS软件作为功能强大的样本量计算软件,针对多种Logistic回归分析的都有针对的模块可进行计算,今天我们主要讲解PASS15.0软件实现当自变量为二分类的单因素二元Logistic回归分析时其优势比Wald检验的样本量估计。在PASS15.0软件中使用的是Demidenko等人2007年提出的近似公式,当只有一个自变量(假设该自变量为X)且为二分类变量时(X=0表示未发生,X=1表示发生),其主要的计算公式如下:
其中`P=&