保姆级NHANES数据库使用教程

本文介绍了美国国家健康与营养调查(NHANES)数据库,涵盖生物样本、调查问卷和详细数据,提供数据下载步骤,以及如何使用SPSS、R和Excel进行数据处理,包括数据格式转换、合并和Excel匹配的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

National Health and Nutrition Examination Survey (NHANES数据库,网址:https://www.cdc.gov/nchs/nhanes/index.htm),收集了有关美国家庭人口健康和营养信息,是一项基于人群的横断面调查。

该数据库开始于80年代,生物样本包含了参与者的血清,血浆,尿液等,涉及多种测量指标。此外,还包含了大量的调查问卷数据,调查问卷涉及广泛,包括人口统计学、社会经济学、饮食和健康相关问题,体检部分包括生理测量、实验室检查等内容。

该数据库自20世纪末开始,每两年一个周期,更新数据,而且是免费对外开放的,研究者可以根据需要直接下载数据。

图片

该数据库所涉及的参与者的死亡状况存在另一个数据库:NDI数据库。网址为https://www.cdc.gov/nchs/ndi/index.htm,如下图:

图片

图片

那,如何从NHANES数据库下载研究所需要的数据呢?

Step 1. 点击1处或2处直接进入数据下载页面(如下图)

图片

Step 2. 可以从下图中的1、2、3处下载数据。

图片

从1或3处可以按年份下载,每个年份包含Demographics Data”(人口数据)、“Dietary Data”(饮食数据)、“Examination Data”(检查数据)、“Laboratory Data”(化验数据)、“Questionnaire Data”(问卷数据)、“Limited Access Data”(限制访问数据)。

图片

点击相应的图标即可进入下载页面,本文以下载2009-2010年份的人口数据为例。注意2020-2022年的数据目前还不能下载。

Step 3. 点击数据文件即可下载数据XPT文件,该格式数据可以用SPSS软件打开,也可以用R软件打开。

图片

点击变量注解,进入变量解释页面,主要关注右边的codebook栏,是对变量的具体解释,非常重要(尤其是在调查问卷文件中)。

左边栏的codebook和Frequencies 中是对字段值的解释,比如:gender中的1 代表male,2 代表female,点代表缺失。

图片

Step 4. 数据处理,可采用SPSSR软件、R软件或Excel 处理。

数据处理方法(1):SPSS数据导入及处理。

a. 格式转换XPT文件格式转化为另存为sav文件或者xlsx文件,以方便处理。

图片

图片

b. 数据合并。

打开先要合并的数据,选中需添加的表格,这里以在数据集1上添加数据集2中的变量,并剔除不需要的变量为例,操作演示如下图的五个步骤,注意的是两个数据集的相同变量为键变量,即患者序列号(SEQN)。

图片

图片

图片

图片

图片

图片

数据处理方法(2): 用R-Studio软件导入及初步处理数据

a. 在R-Studio 安装"foreign"包。

采用镜像安装比较快(这里采用的是阿里镜像)

具体代码如下:

options(repos=structure(c(CRAN="http://mirrors.aliyun.com/CRAN/")))

install. packages("foreign")

b. 把XPT文件放入R软件下的文件夹

备注:如果不清楚该文件路径,可以运行getwd() 语句获取相应的文件路径

c. 导入XPT文件(如下例子读取了四个XPT文件)

library(“foreign”)

mydata1<-read.xport("ACQ_D.XPT")

mydata2<-read.xport("AGQ_D.XPT")

mydata3<-read.xport("ALQ_D.XPT")

mydata4<-read.xport("AUQ_D.XPT")

d. 文件合并(根据每个文件的“SEQN”的进行合并,“SEQN”表示受访者ID号)

merge_data<-merge.data.frame(mydata1,mydata2,by.x="SEQN",by.y="SEQN",all=TRUE)

若有多个数据集可以分步两两合并,也可采用其它的函数进行合并(下次介绍)

e. 合并文件导出Excel,需要先安装”xlsx”包(这里采用阿里镜像安装)

options(repos=structure(c(CRAN="http://mirrors.aliyun.com/CRAN/")))

install. packages("xlsx")

library(“xlsx”)

write.xlsx(merge_data3,file=”D:/merge_data3.xlsx”)

数据处理方法(3):Excel数据匹配

如果数据很少的话,也可用SPSS或R软件把XPT文件转化为xlsx文件之后,也可采用Excel匹配数据,操作如下:

用Excel打开,根据每个文件中的相同字段患者序列号(SEQN),利用VLOOKUP函数进行数据匹配。函数如下图所示。Vlookup(A2,sheet2!A:E,2 1),该函数中A2是查询值,这里是SEQN;Sheet2!A:E表示匹配范围;2代表匹配的数据所在列;1 代表精准匹配。

图片

图片

现在有很多国际认可的临床数据库,这些平台的数据都是鼓励科研人员去挖掘数据、做科学研究的。

大家可以好好探索一下这些数据库。

使用NHANES(National Health and Nutrition Examination Survey)数据库需要进行以下几个步骤: 1. **下载数据**: - 访问NHANES的官方网站(https://www.cdc.gov/nchs/nhanes/index.htm)。 - 在数据部分,选择你需要的调查年份和数据类型。 - 下载相关的数据文件和文档说明。 2. **了解数据结构**: - 阅读下载的文档说明,了解数据的结构、变量含义和编码方式。 - NHANES的数据通常以SAS、XPT或CSV格式提供。 3. **导入数据**: - 根据你使用的软件(如R、Python、Stata等),选择合适的方法导入数据。 - 例如,在R中可以使用`foreign`包或`haven`包导入SAS或XPT格式的数据: ```R library(haven) data <- read_xpt("path_to_file.xpt") ``` - 在Python中可以使用`pandas`库: ```python import pandas as pd data = pd.read_sas('path_to_file.xpt', format='xport') ``` 4. **数据清洗和预处理**: - 根据需要,对数据进行清洗和预处理,如处理缺失值、编码转换等。 - 例如,在R中可以使用`dplyr`包进行数据处理: ```R library(dplyr) data_clean <- data %>% filter(!is.na(variable_of_interest)) ``` 5. **数据分析**: - 根据研究目的,进行描述性统计、回归分析、绘图等。 - 例如,在R中可以使用`ggplot2`包进行绘图: ```R library(ggplot2) ggplot(data_clean, aes(x=variable1, y=variable2)) + geom_point() ``` 6. **结果解释**: - 根据分析结果,解释数据背后的意义,并与文献中的结果进行比较。 通过以上步骤,你可以有效地使用NHANES数据库进行健康和营养相关的研究。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值