统计教程|PASS实现单因素线性回归分析时样本含量估计

线性回归被广泛地应用于各种类型的医学研究,我们可以通过估计变量之间的回归线的斜率来研究一个变量对另一个变量的影响程度。但是与其对应的样本含量的具体计算,在很长一段时间都没有相关研究进行具体阐述。而更多时候是统计学家们在长期的研究工作中,根据经验总结出的一些一般准则。在进入20世纪后,国内外有关线性回归分析样本量估计方法的相关研究逐渐增多,以此同时,新的问题接踵而至。如线性回归的样本量计算公式大多较为复杂、参数多以及计算量大,且部分参数的取值区间不连续。这无疑阻碍了相关方法的推广应用。

常见的单因素线性回归样本量计算公式主要有以下几种:

公式①是Cohen(1988)等人给出的单个自变量线性回归的检验效能(1-β)的计算公式,其相应的样本量估计是建立在自由度分别为1和n-2,非中心参数为

的非中心F分布基础上,在计算样本量时,一般先设定样本量初始值,然后迭代样本量直到所得的检验效能满足条件为止,此时的样本量,即研究所需的样本量。公式②是Sokal和Rohlf等人推荐采用的样本含量计算公式。公式③是William等人推荐采用的样本含量计算公式。计算公式中,n为样本含量,ρ为自变量与因变量间的相关系数,σy因变量y的标准差,σx为自变量x的标准差;λ1为线性回归系数,Z1-α/2为标准正态分布1-α/2的分位数(当单侧检验时为1-α),Z1-β为标准正态分布1-β的分位数,α为Ⅰ型错误率,β为Ⅱ型错误率。

由于研究设计、主要研究指标的性质和目的不同,其样本含量估算有所不同。通常情况下,我们只需要检验线性回归的系数(β)是否为0,但是我们在进行临床试验涉及到线性回归时,一般是想要检测其斜率(回归系数)是否和一个给定的幅度的回归斜率相等,常采用的零假设其回归斜率是否为零或等于假定值,备则假设为它们不同,相对应的假设为:H0:β1=β0;备则假设H1:β1≠β0(λ0默认为0)。

在PASS15.0软件中有参考公式为③的单独进行单因素线性回归分析时的样本量含量估计模块。现本例主要讲解PASS15.0软件估算单因素线性回归时所需样本含量的方法。

例:合理的节食计划可鼓励病人遵循特定的饮食和定期锻炼,某研究欲探讨参加这个项目6个月后,实际的每天平均锻炼时间是否与BMI有关。前期研究表明,女性参与者的运动时间标准差(ox)=7.5min;女性受试者报告的BMI的标准差 (oy) =4.0kg/m2。为了方便检测到每分钟运动能使得其BMI真实下降0.07kg/m2,假设a=0.05 (双侧),B=0.2,请问该研究共需要多少样本含量?

解析:该调查研究为每天平均锻炼时间与BMI的关系,主要结局指标为锻炼后的BMI,主要评价的指标为运动时间,两指标都为连续变量,故可采单因素线性回归分析进行分析。主要目的是估算每分钟运动后使其BMI真实下降0.07kg/m2的样本含量,由本例可知五个参数:①α=0.05(双侧);②检验效能(1-β)=0.8;③运动时间的标准差(σx)=7.50min;④锻炼后的BMI的标准差(σy)=4.0kg/m2;⑤线性回归模型的回归系数β1=-0.07kg/m2。

PASS软件样本含量估算的具体步骤:

01 PASS主菜单进入样本含量估算设置界面:

打开PASS15软件,①点击Regression菜单并双击或其前面的“+”展开子菜单栏;→②点击Linear Regression菜单并双击或其前面的“+”展开子菜单栏;→③点击Linear Regression→弹出Linear Regression对话框进入单因素线性回归分析的样本含量估计界面,详见操作示意图(图1)。

02 PASS样本含量估算参数设置:

①Solve For:Sample Size,首先说明我们本次所求的结果为样本含量;→②Alternative Hypothesis:Two-Sided Test,指定采用双侧检验;→③Power:0.8,表示检验效能(1-β)为0.8;→④Alpha:0.05,表示检验水准为0.05;→⑤B0(Slope|H0):0,设定无效假设的回归系数β0的取值为0;→⑥B1(Slope|H1):0.07,设定待检验的回归系数β1的取值为0.07(回归系数的绝对值,故本例回归系数|-0.07|=0.07);→⑦SX(Standard Deviation of X’s):7.5,指定自变量的标准差,本例运动时间为自变量,标准差(σx)=7.50;→⑧Residual Variance Method:SY(Std. Dev. Of Y),指定用来计算回归模型残差标准差的指标(共有:“SY(Standard Deviation of Y)”即因变量标准差、“R(Correlation)”即自变量与因变量相关系数、“S(Standard Deviation of Residuals)即直接指定模型残差的标准差”三种方式),本例知道因变量的标准差,故指定采用因变量的标准差计算;→⑨SY(Standard Deviation of Y):7.5,指定因变量的标准差,本例锻炼后的BMI为因变量,标准差(σy)=4.0;→⑩点击Calculate按钮,完成单因素线性回归分析所需样本含量的设置,详见操作示意图(图2)。

03 PASS样本含量估算结果:

由图3可知,PASS软件给出的结果主要有:样本含量估算的结果、相关参考文献、样本量估算报告中出现各名词的定义、对计算结果的总结描述以及该研究期间如发生脱落时所需的样本数。

从结果可知:当自变量(X)的标准偏差为7.50,因变量(Y)的标准偏差为4.00,且α=0.05(双侧)时,需要样本量为496的样本可实现80%的功效,以检测斜率从零假设下的0到备则假设下的0.07的变化。如果需要考虑脱落/失访率为20%时,则一共需要纳入563例(其中可能脱落的人数为113例)。

想要了解更多统计教程相关知识,请登录常笑医学网(www.cxmed.cn)中医学统计栏目进行查询和学习。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值