CHARLS 是一项具备中国大陆 45 岁及以上人群代表性的追踪调查,旨在建设一个高质量的公共微观数据库,采集的信息涵盖社会经济状况和健康状况等多维度的信息,以满足老龄科学研究的需要。
为利用国际上最佳的数据采集方式,并确保研究结果的国际可比性CHARLS 参照包括美国的健康与退休研究(HRS)在内的系列国际老龄调查研究开展调查设计。其全国基线调查于 2011-12 年进行,于 2013 年、2015 年、2018 年和 2020 年分别开展了 4 轮常规问卷的追踪调查,并于 2014 年完成了中国中老年人生命历程调查。为确保样本的代表性,CHARLS 基线调查覆盖了全国 150 个国家/地区、450 个村庄/城市社区,涉及 10,257户家庭的 17,708 人,反映了中国中老年人群的总体情况。2019 年底到 2020 年初,新冠疫情在中国爆发,为及时记录新冠疫情对中国中老年人生活和健康的影响,在 2020 年的第 5 轮调查中增加采集了疫情相关的信息。
CHARLS数据中有个变量就是认知功能(痴呆)的评分,再医学和社会学很多文章用得到,但是这个指标需要手工提取,目前我编写了charlscognition函数,可以很方便的提取出认知功能(痴呆)的评分。可以提取2011-2018年的认知评分数据
下面我来演示一下,简单演示一下2011年
先提取2011年的,要先生成2011年数据,其实主要是要demographic_background,health_status_and_functioning,health_care_and_insurance这三个,我这里直接沿用既往代码了
setwd("E:/公众号文章2024年/charls数据库/class2") #设置你放数据文件的地址
library(haven)
library(tidyverse)
library(scitable)
household_roster<-read_dta('household_roster.dta') #家庭户
family<-read_dta('family_information.dta') #大家庭
#############3
demographic<-read_dta('demographic_background.dta') #基线表
health_status_and_functioning<-read_dta('health_status_and_functioning.dta') #健康状况和功能
biomarkers<-read_dta('biomarkers.dta') #体检数据
Blood_20140429<-read_dta('Blood_20140429.dta') #血检数据
weight<-read_dta('weight.dta') #权重
health_care_and_insurance<-read_dta('health_care_and_insurance.dta') #医疗保健
###########
data<-demographic %>% left_join(health_care_and_insurance, by='ID') %>%
left_join(health_status_and_functioning,by='ID') %>%
left_join(biomarkers,by='ID') %>% left_join(Blood_20140429,by='ID') %>% left_join(weight,by='ID')
生成数据很简单一句话代码,data填入数据,datatype填入数据类型
charlscognition(data = data,datatype = "data2011")
生成两个指标,第一个是情景记忆评分,第二个是认知评分,其他年份的认知功能数据也是这样生成,后面咱们会继续用这两个指标进一步分析。。