Nhanes临床数据库
文章平均质量分 66
天桥下的卖艺者
4个R包的编写者。发布关于SPSS、R语言、stata等相关科研的文章。今后的方向聚焦于:1.机器学习和深度学习 2.各种模型算法研究 3.各种科研图形绘制 4.R语言编程和R包编写 5.数据挖掘
展开
-
代码+视频,手把手教你下载NHANES死亡数据
美国国家健康与营养调查( NHANES, National Health and Nutrition Examination Survey)是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。既往再文章《Nhanes临床数据库挖掘教程1----数据库下载》中,咱们已经初步介绍了Nhanes临床数据的下载,但是这个数据没有涉及到死亡结局和随访时间,本次继续视频介绍如何下载死亡结局相关的数据。地址为:https://wwwn.cdc.gov/nchs/nhanes/Default.aspx。原创 2024-06-14 09:43:53 · 707 阅读 · 0 评论 -
NHANES数据(复杂调查数据)COX回归亚组交互函数1.8尝鲜版(P for interaction)发布
在SCI文章中,交互效应表格(通常是表五)能为文章锦上添花,增加文章的信服力,增加结果的可信程度,还能进行数据挖掘。我来解释一下data是数据,必须数据框形式,x是你研究的目标变量,y是你的结局变量,Interaction是你的分层变量,这个必须是分类变量并转成因子,cov是你的协变量。可以看到DMDMARTL=0的时候,HR是0.99,P值是0.203,DMDMARTL=1的时候HR是1.01,P值是0.141,和咱们算出来是非常接近的,所以可靠性是没有问题的。下面我来介绍一下,咱们先导入数据。原创 2024-06-07 09:05:31 · 1105 阅读 · 0 评论 -
nhanes数据行ROC曲线并BOOT重抽样获取可信区间
美国国家健康与营养调查( NHANES, National Health and Nutrition Examination Survey)是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。既往咱们已经多篇文章对nhanes数据进行了分析介绍,粉丝私信问:如何行ROC分析,并重抽样获取可信区间。地址为:https://wwwn.cdc.gov/nchs/nhanes/Default.aspx。转载 2024-05-20 09:15:53 · 138 阅读 · 0 评论 -
分享一个nhanes数据报错的解决方案
美国国家健康与营养调查( NHANES, National Health and Nutrition Examination Survey)是一项基于人群的横断面调查,旨在收集有关美国家庭人口健康和营养的信息。今天分享一个小的NANES报错小方案,目前有不少粉丝私信我是说:使用survey包的时候出现如下图错误:stratum has only one PSU at stage 1。这个报错是因为survey进行权重抽样计算的时候PSU分配到单一的变量所致,咱们导入包的时候可以对它进行一下设置。原创 2024-03-31 11:01:53 · 580 阅读 · 0 评论 -
R语言使用dietaryindex包计算NHANES数据多种营养指数(2)
健康饮食指数 (HEI) 是评估一组食物是否符合美国人膳食指南 (DGA) 的指标。Dietindex包提供用户友好的简化方法,将饮食摄入数据标准化为基于指数的饮食模式,从而能够评估流行病学和临床研究中对这些模式的遵守情况,从而促进精准营养。该软件包可以计算以下饮食模式指数:• 2020 年健康饮食指数(HEI2020 和 HEI-Toddlers-2020)• 2015 年健康饮食指数 (HEI2015)• 另类健康饮食指数(AHEI)• 控制高血压指数 (DASH) 的饮食方法。原创 2024-03-28 08:42:14 · 2191 阅读 · 2 评论 -
NHANES数据(复杂调查数据)亚组交互函数1.7(P for interaction)发布-纠正了目前的一个问题
大家好,有粉丝私信我说NHANES数据(复杂调查数据)亚组交互函数1.版本交互函数有点问题,我查看了一下,有个代码调用失效了。就是下面这个,本来我是这样调用数据的。应该是由于R版本或者survy包升级后导致这个调用代码失效了,导致了调查数据没有加权,给您带来不便敬请见谅。原创 2024-03-08 11:42:44 · 466 阅读 · 0 评论 -
R语言使用dietaryindex包计算NHANES数据多种健康饮食指数 (HEI等)(1)
FPED 人口文件是指 WWEIA 中食品的食品模式等效文件,可以在这个网址下载:https://www.ars.usda.gov/northeast-area/beltsville-md-bhnrc/beltsville-human-nutrition-research-center/food-surveys-research-group/docs/fped-databases/最后的DEMO文件是指人口统计变量和样本权重中的DEMO文件,在下面这个地址可以下载,选年份和上面是一样的。原创 2024-02-28 16:17:56 · 4402 阅读 · 5 评论 -
迎新年,送新手福利, 送2篇nhanes文章全套复现代码
这篇文章反映的是一些身体指标和活动代谢的关系,这篇文章虽然作者给出了复盘文章的全套代码,但是nhanesaccel包已经损害不能安装使用了,我重新修复了nhanesaccel包的代码,使得文章能全盘复制,我还做了很多代码的注释,可以更好的分析代码,了解思路,让您事半功倍。每篇文章都超过600行代码,从数据下载到数据清洗,再到数据分析,绘制表格。本次赠送2篇关于nhanes数据的已经发表的文章的全套代码,可以手把手复现文章的表格和结论,对刚进行nhanes数据分析的新手应该会特别有帮助,老手可以跳过。原创 2024-02-16 10:33:18 · 844 阅读 · 0 评论 -
聊聊Nhanes数据怎么做中介效应分析
研究的是银屑病和冠心病发病的中介因素,咱们来看下统计学部分,这篇文章介绍缺失超过30%的变量被删除,以后咱们也可以这样做。这个研究是探索挥发性有机物的个体代谢产物和组合代谢产物之间的关系尿液中的(mVOCs),代表VOCs的内部暴露水平,具有骨密度(BMD),骨质疏松症(OP)和骨折以及潜在的介质。最后来介绍一篇7分的文献,为什么放在最后介绍呢,因为它是个统计专业的杂志,应该可靠性很强,而且它还附带了代码。看到了把,使用的是mediation包,这是个常用的中介分析的包,我已经有多篇文章进行介绍了。原创 2024-02-02 09:06:28 · 1386 阅读 · 4 评论 -
代码+视频,超详细的R语言svykm函数绘制复杂抽样设计数据cox回归生存曲线(Kaplan-Meier)
我们在既往的文章《R语言绘制复杂抽样设计数据cox回归生存曲线(Kaplan-Meier)》中介绍了怎么使用jskm包的svykm函数绘制复杂抽样设计数据cox回归生存曲线(Kaplan-Meier),今天来视频操作一下。超详细的R语言svykm函数绘制复杂抽样设计数据cox回归生存曲线(Kaplan-Meier)原创 2024-01-11 09:33:54 · 760 阅读 · 0 评论 -
R语言使用surveyCV包对NHANES数据(复杂调查加权数据)进行10折交叉验证
交叉验验证(交叉验证,CV)则是一种评估模型泛化能力的方法,广泛应用中于数证据采挖掘和机器学习领域,在交叉验证通常将数据集分为两部分,一部分为训练集,用于建立预测模型;模型,或逻辑模型的二元交叉熵)。这样结果就出来了,这里的mean相当于MSE的平均值,表示误差的平均值,它可以有助于改善我们的模型,它和单用svymean函数这种算法是完全不一样的。这次使用survey自带的加州学生的数据,包含有学生的成绩和其他数据。如果咱们是有调查函数的,咱们需要用到cv.svydesign这个函数,指定一下就可以了。原创 2023-10-30 10:43:18 · 4214 阅读 · 0 评论 -
NHANES数据(复杂调查数据)亚组交互函数1.4尝鲜版(P for interaction)发布---用于一键生成交互效应表
我来解释一下data是数据,必须数据框形式,x是你研究的目标变量,y是你的结局变量,Interaction是你的分层变量,这个必须是分类变量并转成因子,cov是你的协变量,在我的设定中cov是要包含Interaction的,这也符合我们的习惯。这里删除缺失值只是为了演示方便,不具有实际意义。就是当RIAGENDR等于1和DMDMARTL等于0这个亚组的人群是被默认为做参考比较的,其他组都是和它进行比较,分类变量进行亚组交互的时候,分类最好不要太多,要不数据会很大,而且有些层分不到数据就会显示数据缺失NA。原创 2023-10-26 10:54:52 · 1550 阅读 · 0 评论 -
R语言手动绘制NHANSE数据基线表并聊聊NHANSE数据制作亚组交互效应表的问题(P for interaction)
转成因子后,下面开始建立抽样调查函数svydesign,ids表示集群的意思,这里填入抽样单元SDMVPSU(PSU),如果没有的话填入1,strata = ~ SDMVSTRA,strata这里是分层的意思,这里填入SDMVSTRA,weights是权重的意思,参照别的大佬的意思,如WTINT2YR,WTMEC2YR,这两个权重就填入WTMEC2YR,data填入你的数据就可以了。主要是使用survey包自带的函数来进行计算,计算连续的和分类的要分开计算,这样计算出来的东西就完全不一样了。原创 2023-10-11 09:09:50 · 3057 阅读 · 7 评论 -
分享一篇来自JAMA(IF=51)的NHANES数据插补方法
我们在文章《nhanes数据库挖掘教程3–对数据进行多重插补》中已经初步介绍了,近期粉丝向我推荐了一篇JAMA的文献。使用过nhanes数据库的都知道,nhanes数据库有些变量存在大量缺失值,容易导致分析结果偏差,对数据进行插补为一种有效的方法。地址为:https://wwwn.cdc.gov/nchs/nhanes/Default.aspx。继续使用咱们之前文章《nhanes数据库挖掘教程3–对数据进行多重插补》中采集的nhanes数据,可以看到很多数据存在缺失值。转载 2023-07-30 08:31:43 · 1260 阅读 · 0 评论 -
nhanes数据库挖掘教程6-对插补数据进行敏感性分析
本文为转载文章,原文地址如下:https://mp.weixin.qq.com/s?《在nhanes数据库挖掘教程5》中我们已经介绍了如何绘制如何对插补后的5个数据进行效应值合并,然后绘制多元性线性回归的限制立方样条图(RCS).不少粉丝后台私信问,为什么只用了a1数据,能不能用上全部数据,后面我想了一下,我们可以使用全部的插补数据做一个敏感性分析增强我们文章结果的可信度。上图中有5条曲线,代表了5个插补数据,线条趋势很接近,表明了我们插补数据的结论很可靠,这样有助于增强我们文章结论的可靠性。转载 2023-07-15 11:49:41 · 1180 阅读 · 0 评论 -
超详细的R语言svykm函数绘制复杂抽样设计数据cox回归生存曲线(Kaplan-Meier)
我们在既往的文章《R语言绘制复杂抽样设计数据cox回归生存曲线(Kaplan-Meier)》中介绍了怎么使用jskm包的svykm函数绘制复杂抽样设计数据cox回归生存曲线(Kaplan-Meier),但是有粉丝觉得讲得不够详细,希望讲得详细一点,今天我们继续来介绍一下。数据我们解释几个等下要用到的变量,age:年龄,trt:治疗方案:1D-青霉烯,2安慰剂,edema:水肿, status: 结局变量0/1/2表示审查、移植、死亡。这是一个原发性胆道胆管炎数据,公众号回复:胆管炎数据,可以获得数据,原创 2023-05-01 20:21:07 · 2082 阅读 · 1 评论 -
Nhanes临床数据库挖掘教程1----数据库下载
21(1):292.为参照(糖尿病与肺功能之间的非线性关联:一项基于人群的研究)为参照,对数据进行下载,作者取的是2007-2012年的数据,我这里取的是2007-2008的数据。需要找到年龄、性别、种族、体重指数、血糖、FVC等相关指标,这是一个花时间的过程,需要慢慢找,先把人口统计数据下载下来看看,使用haven包的函数把数据打开。还需要关键的血糖和肺功能的指标,血糖应该在化验室指标那里,这次我们使用nhanesA包来下载。对数据进行提取,序列号都要提取,等下对数据进行合并用的。数据小的话还是很快的。原创 2022-10-24 10:27:28 · 7915 阅读 · 10 评论 -
R语言绘制复杂抽样设计logistic回归限制立方样条图(RCS)
上图只显示了一部分,这是一个转移性胃癌患者(Power、Capanu、Kelsen 和 Shah 2011)的数据(公众号回复:胃癌数据,可以获得数据),数据很多我们选取一部分建模,age_dx:年龄,group:分组变量,分为存活率小于2年的和大于两年的,inv_weight:概率权重,ssize:每个分组患者的人数,survival生存时间,surv_cens生存结局。prob 指定的抽样概率对于长期幸存者组(≥ 24月)中的患者等于 1,对于存活不到 2 年的患者均等于 253/853=0.296。转载 2022-10-09 11:12:00 · 7180 阅读 · 2 评论 -
Nhanes临床数据库挖掘教程2—基线表绘制(table1)
下面开始建立抽样调查函数svydesign,ids表示集群的意思,这里填入抽样单元SDMVPSU(PSU),如果没有的话填入1,strata = ~ SDMVSTRA,strata这里是分层的意思,这里填入SDMVSTRA,weights是权重的意思,参照别的大佬的意思,如WTINT2YR,WTMEC2YR,这两个权重就填入WTMEC2YR,data填入你的数据就可以了。继续使用我们上次制作好的数据,我们先把数据导入,可以按上一章的方法提取,如果想偷懒一点的,直接想要我的数据的请公众号回复:代码。原创 2022-11-02 09:34:44 · 6445 阅读 · 7 评论 -
nhanes数据库挖掘教程3--对数据进行多重插补
关于对复查抽样数据插补的文章,我查了很多文献,没有100篇也有50篇了,部分表示不能使用mice包直接进行插补,但是很多文章和书籍都没有介绍怎么对抽样复杂数据进行插补,或者插补的方法太复杂,看得我一脸懵逼。又或者介绍SAS插补,我也看不懂,本文的插补方法来自文献1-2,采用链式的方法进行逐步插补。上一章我们已经介绍了怎么绘制nhanes数据库基线表,使用过nhanes数据库的都知道,nhanes数据库有些变量存在大量缺失值,容易导致分析结果偏差,对数据进行插补为一种有效的方法。可以看到很多数据存在缺失值,原创 2022-11-23 11:00:42 · 3006 阅读 · 0 评论 -
nhanes数据库挖掘教程4-survey包对插补后数据绘制条形图、箱线图、直方图(2)
上期我们已经介绍了对ggsurvey包对插补后数据绘制条形图、箱线图、直方图,这次我们介绍一下survey包对插补后数据绘制条形图、箱线图、直方图,继续使用我们插补后的nhanes数据。数据中包含有缺失值插补的信息,这部分我们绘图并不需要,先删掉,并把分类变量转成因子。绘制年龄的条形图,绘制之前需对年龄分段,在生成调查数据前分段也可以。最后祝大家新年快乐,身体健康,事业顺利,阖家幸福。最后绘制年龄的直方图,这里直方图以概率密度来表示。修改颜色和其他细节都可以调整,我就不多说了。原创 2023-01-25 09:40:19 · 947 阅读 · 0 评论 -
从RMS包的fun函数看如何手动从复杂抽样模型中推导HR或OR值并绘制限制立方样条函数(附有我自己写的一键生成结果的函数)
我们在科研中绘制列线图和限制立方样条图会经常使用大神Frank E Harrell Jr写的RMS包,在进行绘制限制立方样条图时我们进场会使用Predict函数中的fun函数对预测值数据进行变换,在上一篇文章《R语言绘制复杂抽样设计logistic回归限制立方样条图(RCS)》,因为上一篇文章我们得出的是概率,很多朋友私信问我,怎么转换成HR或者OR?本文为转载文章,原文地址如下:https://mp.weixin.qq.com/s?然后到了生成预测值,我们先生成一个没有返回OR或HR函数的代码。转载 2022-10-31 11:10:53 · 1099 阅读 · 0 评论 -
nhanes数据库挖掘教程4-ggsurvey包对插补后数据绘制条形图、箱线图、直方图(1)
上期我们已经介绍了对nhanes数据库数据进行多重插补,这次我们介绍一下怎么对插补后数据进行分析,先介绍ggsurvey包对插补后数据绘制条形图、箱线图、直方图,我们上次插补生成了5个插补数据,我们导入其中一个。本次分享就到这里了,仅供参考,图形的细节、颜色还可以进一步调整,有空再介绍一下,有兴趣的也可以自己研究一下。数据中包含有缺失值插补的信息,这部分我们绘图并不需要,先删掉,并把分类变量转成因子。绘制年龄的条形图,绘制之前需对年龄分段,在生成调查数据前分段也可以。原创 2022-12-09 10:07:50 · 884 阅读 · 0 评论 -
R语言进行复杂抽样设计(Survey-Weighted)logistic回归列线图-Cindex-ROC-校准曲线绘制-外部验证
对于复杂设计调查(Survey-Weighted)的数据,我们不能使用RMS包直接绘制预测模型列线图,这样会造成数据偏差,既往我们已经介绍了SvyNom包绘制复杂设计调查(Survey-Weighted)的数据cox回归的列线图,今天我们来介绍绘制复杂设计调查(Survey-Weighted)的数据logistic回归列线图-Cindex-ROC-校准曲线绘制-外部验证,继续使用我们的转移性胃癌数据,我们先导入数据和R包。先要注意一下,这是个生存数据,我们把它当成二分类数据来分析,做个演示而已。转载 2023-01-14 12:52:57 · 2390 阅读 · 0 评论 -
nhanes数据库挖掘教程5-对插补后数据进行效应值合并绘制多元线性回归限制立方样条
在nhanes数据库挖掘教程3中我们已经介绍了对nhanes数据的缺失值进行插补,本期主要介绍如何绘制如何对插补后的5个数据进行效应值合并,然后绘制多元性线性回归的限制立方样条图(RCS),并比较使用插补后的数据和直接删除数据对于绘图的影响和差别。地址为:https://wwwn.cdc.gov/nchs/nhanes/Default.aspx。因为我们需要合并5个数据的效应值,所以5个数据都需要导入,我们取其中一个数据来看看。在分析前要特别注意一下,我们在分析前一定要注意你插补得对不对,转载 2022-12-16 11:03:46 · 2278 阅读 · 3 评论 -
R语言绘制复杂抽样设计数据cox回归生存曲线(Kaplan-Meier)
这是一个原发性胆道胆管炎数据,公众号回复:胆管炎数据,可以获得数据,嫌麻烦的也可以在这里下载:https://download.csdn.net/download/dege857/87264805?数据我们解释几个等下要用到的变量,age:年龄,trt:治疗方案:1D-青霉烯,2安慰剂,edema:水肿, status: 结局变量0/1/2表示审查、移植、死亡。咱们先来一波小操作,生成一个预测值,等下好操作,不喜欢可以跳过这部分,对后面的操作没影响。原创 2022-12-12 16:01:40 · 2572 阅读 · 0 评论 -
Nhanes临床数据库挖掘教程2—非正态数据的基线表绘制(2)
下面开始建立抽样调查函数svydesign,ids表示集群的意思,这里填入抽样单元SDMVPSU(PSU),如果没有的话填入1,strata = ~ SDMVSTRA,strata这里是分层的意思,这里填入SDMVSTRA,weights是权重的意思,参照别的大佬的意思,如WTINT2YR,WTMEC2YR,这两个权重就填入WTMEC2YR,data填入你的数据就可以了。上面代码的意思是把小于7.8的分类为1,大于11的分类为3,其余分类为2。它的基线表是分为正常患者、糖尿病前期,糖尿病3个类型,原创 2023-02-01 09:20:37 · 2041 阅读 · 4 评论