纳入文献无均数与标准差?Meta分析连续性数据的深度提取。

当我们在做Meta分析时,合并的结局指标包含五大类,分别是二分类数据、连续性数据、有序数据、计数或率、时间-事件数据。其中,连续性数据意指在特定范围内可取任何值的数据,如身高、体质量、面积等。对连续性数据进行 Meta 分析时,合并的统计量为“均数差”(mean difference,MD),即两组间均数的差值。然而,我们常常面临一个挑战:数据获取和处理。我们需要样本量、均数和标准差,但并非每篇文献都提供完整信息。如何解决这一难题呢?让我们一起探索对连续性数据的深度提取方法。

复旦大学附属中山医院刘海宁,吴昊和姚灿等人在中国循证医学杂志 2017年1月第17卷第1期发表了一篇标题为“Meta 分析中连续性数据的深度提取方法” [1]的文章。其对 Meta 分析无法从文献中直接获取均数、标准差时,如何对数据进行深度提取进行了阐述,并通过 2 项实例分析示范其应用过程 。

方法

1. 由中位数及最大值、最小值估算

对于文献中非正态分布的数据,不适宜用均数和标准差描述数据的分布情况,亦无法使用t检验,因此只报告中位数及最大值、最小值。此时,我们可以使用中位数及最大值、最小值估算均数及标准差。

设样本量为 n,中位数为 M,最小值为 a,最大值为 b,均数为 m,标准差为 SD

该方法不要求研究对象为正态分布。其他分布类型,如 Log 分布、二项分布、指数分布、韦伯分布皆可以用此方法进行均数和标准差的估算。但值得注意的是,此方法仅仅是对均数和标准差的估算。对于未提供均数和标准差的文献,仍然首选向通讯作者等索要原始数据。

2. 由中位数和四分位数估算

一些文献只报告中位数与较大、较小四分位数。设样本量为 n,中位数为 M,较小四分位数(第一四分位数)为 q1,较大四分位数(第三四分位数)为 q3,均数为 m,标准差为 SD

μz可通过 Stata、Microsoft Excel 软件或查表法计算。鉴于查表法所得出的数据精度不高,相比之下,软件计算更有优势。以 Stata 12.0 版本为例,输入“di invnormal(1-z)”命令即可,其中,z 是具体数值,由样本量计算得出。

以 Microsoft Excel 2013 版本为例,在任意单元格中输入“= norm.inv(1-z, 0, 1)”后按回车键即可,z 为具体数值。

该方法不要求研究对象为正态分布。其他分布类型,如 Log 分布、二项分布、指数分布、韦伯分布皆可以用此方法估算。该方法的另一项优势在于其考虑到了样本量的大小对估算值的影响。

3. 从统计图中截取数据

这种情况可以使用 Photoshop 软件从统计图中提取数据。以 Photoshop CS5 版本为例,打开图片后,点击“窗口”选项卡,再点击“信息”选项,则会弹出“信息”窗口,可以显示鼠标所指的点在图片中对应的横坐标与纵坐标的数值。如图 1所示,A、B 点为纵坐标轴上已知刻度值的 2 个点,2 个点对应的刻度值分别为ab。C 点为“均数线”上的任意 1 个点,D 点为“误差线”上的任意 1 个点,2 个点对应的纵坐标轴上的刻度分别为cdcd的刻度值未知)。以上 4 个点在图片中的坐标值可以通过 Photoshop 求得,分别为(xy)。设均数为m,标准差为SD

A、B 点为纵坐标轴上已知刻度值的 2 个点,2 个点对应的刻度值分别为ab。C 点为“均数线”上的任意 1 个点,D 点为“误差线”上的任意 1 个点,2 个点对应的纵坐标轴上的刻度分别为cdcd的刻度值未知)。

同样,对于非正态分布的数据,可通过箱式图截取中位数、四分位数、最小值、最大值,再用 1.1 节、1.2 节所述方法进一步估测均数与标准差。该方法甚至可通过散点图截取原始数据,再自行作统计分析。

4. 合并各亚组数据

部分文献的研究对象可以分为多个亚组,有时仅仅给出各亚组的样本量、均数、标准差。这时,需要合并各亚组的数据以求得总体。

设总体样本量为n,各亚组样本量分别为 n1 、 n2 、…、 nk ;总体均数为m,各亚组均数分别为 m1、 m2、…、mk ;总体标准差为SD,各亚组标准差分别为 SD1、 SD2、…、SDk 。

有 2 个亚组时,总体标准差即是两样本t检验中的中间变量—— 合并方差( S_{C^{2}} ):

有 k 个亚组时:

5. 由均数的 95% 可信区间计算标准差

部分文献只给出样本量、均数及其 95% 可信区间,未给出标准差。均数、其 95% 可信区间的上、下限,三者给出其二即可。对于使用t 分布计算的均数的 95% 可信区间,可通过t_{0.05/2,v}计算标准差。

设样本量为 n,均数为 m,标准差为 SD,均数的 95% 可信区间为(LU),自由度为 v,则:

t_{0.05/2,v}可由Stata、Microsoft Excel软件或查表法求得。在 Stata 软件中输入“di invttail(ν, 0.025)”命令即可,其中ν 由具体的数值替代。在 Microsoft Excel 软件的任意单元格中输入“= t.inv.2t(0.05,ν)”或“= tinv(0.05,ν)”后按回车键即可,ν 为具体数值。

必须说明,应用此种方法的数据需要满足正态性。对于使用t 分布计算的均数的 95% 可信区间,表明数据已被验证满足正态性,可以直接使用此种方法计算标准差。

6. 由组间的P 值、t 值、标准误、95% 可信区间计算标准差

部分文献给出了试验组与对照组各自的样本量、均数,这时,只需知道两组间的P 值、t 值、标准误、均数差的 95% 可信区间中的任何一个,即可计算两组的“平均标准差”。

设两组样本量分别为 n1、 n2,均数分别为 m1、 m2(假设 m1>m2),平均标准差为SD。组间标准误为s,均数差为 \Delta m ,均数差的 95% 可信区间为(LU),总自由度为 v。则:

平均标准差 SD 由组间标准误 计算:

组间标准误s可由t值计算:

也可由均数差的 95% 可信区间计算:

其中, t_{0.05/2,v}的计算方法已在第 5 节中详述。

t 值(即t_{p/2,v})通常会直接给出,也可由P 值计算。已知P 的值,在 Stata 软件中输入“di invttail(ν,P/2)”命令即可,其中νP 由具体的数值替代。或在 Microsoft Excel 软件的任意单元格中输入“= t.inv.2t(P,ν)”或“= tinv(P,ν)”后按回车键即可,Pν 为具体数值。

一些文献不给出具体的P 值,而是P 值的范围,如P<0.05,P<0.001。这时,可以采用保守的办法,取P 值的上限,如P<0.05 时假定P = 0.05,P<0.001 时假定P = 0.001。这样做的缺陷也是显而易见的—— 平均标准差被高估。

7. 其他

部分文献的原始数据为偏态分布,将原始数据取对数后则为正态分布,因此仅报告取对数后的均数及其 95% 可信区间。诸如血甘油三酯、肿瘤标志物的浓度在病例组常会出现偏态分布。Cochrane 手册建议取对数后的均数再取反对数,则可得到原始数据的几何均数。对可信区间数据取反对数,再应用 1.5 节所述方法可计算原始数据的标准差。

部分文献仅给出每组的样本量、均数,未给出标准差,且无法用以上介绍的方法估算。在向文献通讯作者索要原始数据未果的情况下,此文献的标准差出现缺失。若放弃纳入此文献,可能会造成信息缺失与偏倚。这时,可利用其他相似的 Meta 分析,或者用本研究中其他纳入文献所计算出的均数差的标准差,作为缺失文献的每组的平均标准差。Furukawa 等[2]的研究表明,当纳入文献较多,而缺失标准差的文献较少时,用此方法填补缺失值对 Meta 分析的结果影响甚微。反之,当纳入文献较少,而缺失标准差的文献较多时,结果的可靠性较低。此方法真正被利用的是样本量与均数,标准差是假设的统计量,因此 Cochrane 手册认为“除非迫不得已,否则应避免使用”。

实例

实例一

Malinen 等[3]的研究给出腹泻型、交替型、便秘型 3 个亚型患者各自的样本量、均数与其 95% 可信区间的上限,见表1。

在 Stata 12.0 软件中输入“di invttail(11, 0.025)”,得到t_{0.05/2,11}为 2.201。进一步可求得腹泻型亚组的标准差:

同理,求得交替型亚组的标准差 SD2 = 0.305,便秘型亚组的标准差 SD3 = 0.403。

可求出 IBS 组的总体样本量为:n=n1+n2+n3=12+6+9=27

总体均数为:m=9.206

总体标准差为:SD=0.478

实例二

Ramzy 等[4]的研究给出结直肠癌、大肠息肉、炎症性肠病患者各自 microRNA-92a 的中位数、四分位数、最大值及最小值,见图2。结直肠癌、大肠息肉、炎症性肠病样本量分别为 25、14、11。

使用 Photoshop 软件打开图片,调出“信息”窗口,移动鼠标至各组中位数、最大值、最小值所在线段,记录在图2中的纵坐标。结直肠癌组对应的中位数、最大值、最小值的图2中的纵坐标分别为 11.68、2.15、15.27,大肠息肉组分别为 11.84、4.16、15.11,炎症性肠病组分别为 13.05、2.54、14.72。5.0 刻度线与 10.0 刻度线对应的点在图2的纵坐标为 10.99、6.51。

结直肠癌组中位数为:

M1=\frac{(11.68-10.99)(5-10)}{10.99-6.51}+5=4.23

最大值为:

b1=\frac{(2.15-10.99)(5-10)}{10.99-6.51}+5=14.87

最小值为:

b1=\frac{(15.27-10.99)(5-10)}{10.99-6.51}+5=0.22

同理,大肠息肉组的中位数、最大值、最小值分别为 4.05、12.62、0.40,炎症性肠病组分别为 2.70、14.43、0.84。

接下来由中位数及最大值、最小值估算均数、标准差。

结直肠癌组样本量为 25,在 15 至 70 之间。

m1=\frac{a1+2M+b1}{4}=\frac{0.22+2\times 4.23+14.87}{4}=5.59

SD1=\frac{b1-a1}{4}=3.66

大肠息肉组的样本量 14<25,且<15。

同理,炎症性肠病组的样本量 11<25,且<15,可求出 m3 = 5.17, SD3 = 4.17。

总结

在 Meta 分析的数据合成过程中,数据缺失是常见情况。对连续性数据进行 Meta 分析需要获得 2 个组各自的样本量、均数、标准差。其中标准差是最常缺失的数据。此时最好的办法是向通讯作者索要数据。

本文介绍了 8 种对连续性数据进行深度提取的方法,在无法从文献作者处获取原始数据时可以应用。这些方法各有其局限性,且对原始数据的分布类型有不同要求。通过这些方法所获得的数据的精确程度也不相同(表 2)。因此,在提取数据时需格外注意其应用范围。

本次分享就到这了,如有meta分析的问题,欢迎评论交流!

如果问题不便公开,也可单独咨询。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值