CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查,旨在建设一个高质量的公共微观数据库,采集的信息涵盖社会经济状况和健康状况等多维度的信息,以满足老龄科学研究的需要。
为利用国际上最佳的数据采集方式,并确保研究结果的国际可比性CHARLS 参照包括美国的健康与退休研究(HRS)在内的系列国际老龄调查研究开展调查设计。其全国基线调查于 2011-12 年进行,于 2013 年、2015 年、2018 年和 2020 年分别开展了 4 轮常规问卷的追踪调查,并于 2014 年完成了中国中老年人生命历程调查。为确保样本的代表性,CHARLS 基线调查覆盖了全国 150 个国家/地区、450 个村庄/城市社区,涉及 10,257户家庭的 17,708 人,反映了中国中老年人群的总体情况。2019 年底到 2020 年初,新冠疫情在中国爆发,为及时记录新冠疫情对中国中老年人生活和健康的影响,在 2020 年的第 5 轮调查中增加采集了疫情相关的信息。
视频介绍一下如何使用我写的函数轻松复现CHARLS文章中的表三,比较适合没有统计基础的初学者,根本不用费劲学什么T检验,卡方检验,回归等。
轻松复现CHARLS文章中的表3
setwd("E:/公众号文章2024年/charls数据库/class4") #设置你放数据文件的地址
library(haven)
library(tidyverse)
library(scitb)
library(survival)
bc<-read.csv("data.final.csv",sep=',',header=TRUE)
dput(names(bc))
#分类变量转成因子
bc$sex<-as.factor(bc$sex)
bc$edu<-as.factor(bc$edu)
bc$smoking<-as.factor(bc$smoking)
bc$married<-as.factor(bc$married)
##导入函数
source("E:/r/test/scitb3a.R")
cov2<-c("age","sex")
cov3<-c("age","sex","edu","married","drink","smoking","Hypertension","wc","bmi","CVD")
out<-scitb3a(data=bc,x="TYG",y="New.diabetes",cov2 = cov2,cov3=cov3,family = "cox",time = "time" )