CLHLS:中国老年健康影响因素跟踪调查数据清洗

阅读全文:CLHLS:中国老年健康影响因素跟踪调查数据清洗 (lianxh.cn)

作者:李珊珊 (中国药科大学)
邮箱cpulss@163.com


1. 前言

随着全球老龄化的不断加剧,针对老龄化问题的研究也愈发重要,想要研究好老龄化问题,高质量的数据资料是不可或缺的一环。针对中国老龄化问题的研究,主要数据如下:

此前,连享会已介绍了关于中国健康与养老追踪调查数据 (CHARLS) 的详细数据情况和清洗过程,详见:

因此,本文主要对中国老年健康影响因素跟踪调查 (CLHLS )数据库进行介绍。相比于中国健康与养老调查数据 (CHARLS),中国老年健康调查 (CLHLS) 有自己独特的优势,具体如下:

  • 中国老年健康调查数据除了提供宏观经济环境、微观个体健康及人口社会经济状况等数据信息,还提供了丰富全面的医学体检、死亡、医学生物指标和基因等数据信息。尤其是近些年来,随着老龄化程度的不断加剧,老年人的失能、认知、死亡等问题受到学术界的广泛关注。
  • 中国老年健康调查 (1998-2018) 作为全球规模最大的高龄老人跟踪调查项目,也是国内全国范围最早、坚持时间最长的社会科学调查,也为研究者提供了大量的跟踪样本。

鉴于此,笔者分享了 CLHLS 的数据介绍和常见变量的清洗处理,便于初次接触 CLHLS 的研究者对数据进行分析。

2. 数据库简介

中国老年健康影响因素跟踪调查简称“中国老年健康调查”,英文缩写为 CLHLS,由北京大学健康老龄团队牵头组织,是国际国内学界公认、世界上类似调研中 80 岁以上高龄老人样本最大并有年轻老人对照组的交叉学科研究项目。

其调查范围覆盖全国 23 个省/市/自治区约 50% 的县/县级市/区,调查对象为 65 岁及以上老年人和 35-64 岁成年子女,调查问卷分为存活被访者问卷和死亡老人家属问卷两种。

其中,存活被访者问卷的调查内容包括老人及家庭基本状况、社会经济背景及家庭结构、经济来源和经济状况、健康和生活质量自评、认知功能、性格心理特征、日常活动能力、生活方式、生活照料、疾病治疗和医疗费承担。死亡老人家属问卷的调查内容包括老人死亡时间、死因等内容。

CLHLS 在 1998 年进行基线调查后,分别于 2000 年、2002 年、2005 年、2008-2009 年、2011-2012 年、2014 年和 2017-2018 年进行了跟踪调查。最近的一次跟踪调查 (2017-2018 年) 共访问 15874 名 65+ 岁老年人,收集了 2014-2018 年期间死亡的 2226 位老年人的信息。

“中国老年健康调查”累计入户访问 11.3 万人次,其中最需照料的 80 岁及以上高龄老人占总样本 67.4%,其余为较低龄老人和中年对照组。同时访问 2.89 万位 65+ 岁已死亡被访老人的直接家庭成员,收集了老人死亡前健康状况、生活质量与医疗和照料需求成本等详细数据。

2023 年 4 月 6 日中国老年健康调查 (CLHLS) 第九次调查数据发布会于武汉召开。第 9 次的调查将调查范围扩展到 27 个省市自治区。在前八次调查包括大量老人家庭结构与居住安排、婚姻状态、健康、社会经济特征等丰富信息的基础上,第 9 次调查增加了关于家庭住房养老问项和家庭金融养老储备问项,扩展了兄弟姐妹问项,目前已有 65 项与家庭直接相关问项,有的问项还包括多个子问项,第 9 次调查还增加了成年子女调查。因此,调查名称适当扩展为“中国老年健康和家庭幸福调查” (CLHLS-HF)。

 阅读全文:CLHLS:中国老年健康影响因素跟踪调查数据清洗 (lianxh.cn) 

### R语言处理和整理CLHLS数据库 对于使用R语言来处理和整理中国纵向健康长寿调查(China Longitudinal Healthy Longevity Survey, CLHLS)的数据,可以采用多种方法和技术。下面提供了一个具体的例子,展示了如何加载、清理以及初步分析这些数据。 #### 加载必要的库 为了有效地操作CLHLS数据集,在开始之前需安装并调用一些常用的包: ```r install.packages(c("dplyr", "readxl", "haven")) library(dplyr) library(readxl) library(haven) ``` #### 导入数据文件 假设CLHLS数据是以SPSS(.sav)格式存储,则可以通过`haven::read_sav()`函数读取该文件;如果是Excel表格形式,则可利用`read_excel()`命令完成导入工作[^1]。 ```r clhls_data <- read_sav("path_to_your_file.sav") # 如果是SPSS文件 # 或者 clhls_data <- read_excel("path_to_your_file.xlsx") # 如果是Excel文件 ``` #### 数据清洗与预处理 在实际应用过程中,原始收集到的信息往往存在缺失值等问题,因此需要对其进行适当调整以满足后续统计建模的要求。这里给出几个常见的处理方式: - **删除不必要的列** 使用`select()`可以从DataFrame中选取特定变量,并通过负号前缀实现排除某些字段的功能。 ```r cleaned_clhls <- clhls_data %>% select(-c(unwanted_column_1, unwanted_column_2)) ``` - **填补或移除NA** 对于含有大量空白项的记录可以选择直接丢弃掉,也可以考虑基于其他观测值来进行插补填充。 ```r complete_cases_only <- na.omit(cleaned_clhls) filled_na <- cleaned_clhls %>% mutate(across(where(is.numeric), ~replace_na(., mean(., na.rm=TRUE)))) ``` - **重命名列名以便理解** 更改原有不太直观的名字为更具描述性的标签有助于提高代码可读性和维护效率。 ```r renamed_columns <- filled_na %>% rename(new_name_for_col_a = old_name_of_col_a, new_name_for_col_b = old_name_of_col_b) ``` 以上仅列举了一些基础的操作指南,具体实施细节还需视实际情况而定。更多高级功能如复杂查询构建、可视化展示等则依赖于更深入的学习探索。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值