NHANES数据库样本中的权重分析

大家好,还记得我们之前出过一篇Nhanes数据库使用教程吗?很多小伙伴看完就有疑问了,Nhanes的数据是有权重的,不能用常规的统计方法进行分析,那要怎么分析呢?今天喵学姐就来给大家讲一讲Nhanes数据的权重分析。

保姆级NHANES数据库使用教程


 

问题1:NHANES 的权重是如何产生的?

该调查的抽样方式是分层抽样。每两年进行一次调查。在美国选取几个州,然后再在选取州的下面的一些县级别,然后在县级别中的选取一些市级别的地方,然后在选取市级别下的城镇级别选取家庭为作为调查单位。

首先进行问卷调查,美国总人口数/参加调查问卷的人数= wtint2yr

然后参与问卷调查的人被告知做进一步实验室数据检查和身体测量数据,但是只有一部分人参与,因此产生了另外一个权重wtmec2yr。他们中的一些人进行一些小众化的测试用于调查疾病的调查,如一部分人参与饮食调查所以在文件中“dr1iff”中有个权重WTDR2D - Dietary two-day sample weight。

问题2:要不要选择权重?

NHANES官网是要求在研究的时候进行加权分析数据。因为加权更为真实地反映出整体的情况。当然你也会看到一些已经发表的文章没有考虑权重,是因为作者没有考虑,期刊也没有要求,但是确保研究结果的可靠性,还是建议进行加权分析。

问题3:如何选择权重?

数据库的demo文件中已经给了wtint2yr,wtmec2yr,一些人数更少的调查项目中有权重的会给出相应的权重,如在饮食文件中“dr1iff”中有个权重wtdr2d

取最小调查人群即子集对应的数据的权重

具体而言:

①如果研究对象都是调查问卷里,则采用wtint2yr

②如果研究的对象既有调查问卷的,又有测量的数据,或者只有测量的数据则采用wtmec2yr

③如果研究的对象参与了更为人数少调查或测量,则采用小众人群所对应的权重,如wtdr2d

问题4:如何合并权重?

在研究中一般选用几年的调查样本进行合并之后再进行数据分析调查,每2年的调查数据均有相应的权重,在合理选择权重之后,合并几年可以按照如下公式:

图片

公式中weight表示合并权重,表示的是几个2年循环,wt1 ~n 表示每个2年循环对应的权重。

注意特殊年份:1999-2000;2001-2002,这两个年份分别有一个wtint2yr,wtmec2yr,但是合并起来有一个wtint4yrwtmec4yr。选择的年份的不同,则选用的权重不同。

情况1:如果选择的年份中只包含1999-2000,2001-2002年中的一个年份只需要按照上述的一般情况的公式去计算

情况2:如果选择的年份包含1999-2000,2001-2002年,两个年份时选用整体四年对应的权重,公式改为

图片

理解为把1999-2000看做一个年份,然后占用份额是2 ,剩下的年份占用的份额分别是1 。基本的原则是和一般情况计算公式一样。、

特殊年份:2019-2020这个年份受疫情影响。至于官方的解释是本计划采集2019-2022年数据做一个四年的权重,但是由于新冠疫情的影响,后续把数据2017-2020年3月份分作为3.2年为一个周期权重只给了wtmecprp。如果需要列入2017-2020年的数据,可以考虑特殊处理。

总结

喵学姐认为,NHANES 数据库最好加权分析,选用涉及变量中最小子集的权重,特殊年份特殊处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值