nhanes数据库挖掘教程3--对数据进行多重插补

天桥下的卖艺者

已于 2022-11-23 11:33:08 修改

阅读量3.2k

点赞数 6

分类专栏： R语言 Nhanes临床数据库文章标签： Nhanes

于 2022-11-23 11:00:42 首次发布

本文链接：https://blog.csdn.net/dege857/article/details/127996440

版权

R语言同时被 2 个专栏收录

287 篇文章 869 订阅

订阅专栏

Nhanes临床数据库

28 篇文章 69 订阅

订阅专栏

美国国家健康与营养调查（ NHANES, National Health and Nutrition Examination Survey）是一项基于人群的横断面调查，旨在收集有关美国家庭人口健康和营养的信息。
地址为：https://wwwn.cdc.gov/nchs/nhanes/Default.aspx
上一章我们已经介绍了怎么绘制nhanes数据库基线表，使用过nhanes数据库的都知道，nhanes数据库有些变量存在大量缺失值，容易导致分析结果偏差，对数据进行插补为一种有效的方法。
在这里插入图片描述
关于对复查抽样数据插补的文章，我查了很多文献，没有100篇也有50篇了，部分表示不能使用mice包直接进行插补，但是很多文章和书籍都没有介绍怎么对抽样复杂数据进行插补，或者插补的方法太复杂，看得我一脸懵逼。又或者介绍SAS插补，我也看不懂，本文的插补方法来自文献1-2，采用链式的方法进行逐步插补。我们先导入数据和R包

bc<-read.csv("E:/nhanes/nhanes.csv",sep=',',header=TRUE)

在这里插入图片描述
我介绍一下数据，SEQN：序列号，RIAGENDR, # 性别， RIDAGEYR, # 年龄，RIDRETH1, # 种族，DMDMARTL, # 婚姻状况，WTINT2YR,WTMEC2YR, # 权重，SDMVPSU, # psu，SDMVSTRA，# strata，LBDGLUSI, #血糖mmol表示，LBDINSI, #胰岛素( pmmol/L)，PHAFSTHR #餐后血糖，LBXGH #糖化血红蛋白，SPXNFEV1, #FEV1：第一秒用力呼气量，SPXNFVC #FVC：用力肺活量，ml（估计肺容量），LBDGLTSI #餐后2小时血糖。
可以看到很多数据存在缺失值