写在前面的话:本篇是个合集,大概有3-4篇左右,可能还会多一两篇,大概每周1篇左右。这个是一个完整的独立的纵向分析教程,从数据下载到数据分析全流程,因为纵向分析构建数据是个重要内容,可能会和前面得一些教程有点重合,这也是没办法的事,注意衡量取舍一下,别到时说我凑字数,凑文章,最后说明下我只是复现一个思路,不能解决你所有问题,只是开启思路,达到抛砖引玉的目的。
今年开始会大量的介绍关于纵向分析的文章,这第一篇就来了。我纵观了一下目前趋势,今后想发文章容易,发高分,纵向分析绝对是个趋势,无论是nhanes还是charls,最好横向纵向一起做。比如不同的集群分析,重复测量分析,潜轨迹分析等等,因为这些证据力度更强,相对复杂一点,目前会得人还不多,以后就不好说。今年会花大量时间介绍:广义相加混合模型,广义相加模型,广义线性混合模型,gee模型这些,也会编写一些相关函数。
纵向分析和我们平时的分析有什么不同,最主要得是带有时间参数,这样子不同的时间下就会有不同的Y或者不同的X,或者随着时间变化后X和Y都不同。这样的话我们平时的逻辑回归和线性回归这些用起来就没有这么顺手了。Charls数据这种多年随访数据,非常适合做纵向分析,纵向分析我认为有两个难点,一个是构建数据,另一个就是分析结果。今天介绍这个是相对比较简单点的,可以用来练练手,由浅入深。
本次复现一篇charls的文章名字《烹饪燃料暴露与呼吸系统健康之间的关联:来自中国健康与退休纵向研究 (CHARLS) 的纵向证据》(Association between cooking fuel exposure and respiratory health: Longitudinal evidence from the China Health and Retirement Longitudinal Study (CHARLS)),
作者文章大概的介绍就是使用不同的燃料,比如煤啊,天然气啊,固体燃料等,对肺功能的影响,作者有两个结局指标第一个是是否合有肺病、第二个就是肺活量指标,作者使用了分析了横向关联分析,以及使用多年的数据做了纵向关联分析,charls要拿高分,最好横向分析和纵向分析一起做。我的铁粉可能清楚,我上次在文章《复现一篇6.2分charls文章中的地图》已经复现过这篇文章的地图了,这次继续复现其他的文章表格。这篇文章从变量提取到复现表格,断断续续用了4-5天,主要是charls的变量名不好找,作者很多地方说得不是很明白,我反复揣摩作者的想法比对了数据和结果,因为作者中的文章表格内容太多,主要介绍的是作者的一个思路和怎么构建一个适合纵向分析的数据结构,并且介绍如何把这些表格做出来。并不是一比一还原这篇文章,作者做了大量的工作,我主要是把的想法和思路展现出来。
下载和整理数据分成两个章节,1是下载2011年的基线数据,2.是把2013年、2015年,2018年的数据和2011年的数据进行合并。本节主要是下载2011年的基线数据,可能会和前面有点重合,但是也有一些新的东西。
好的,下面咱们进入正题,先看下作者是怎么分析的,看它的思路主要是看流程图。
全部文章请阅读下面这篇文章: