发现近年来好多人利用GBD数据库发了很多文章。
GBD数据库(http://ghdx.healthdata.org/gbdresults-tool)中关于疾病的发生率、死亡率、DALY等数据都是现成的,所以主要的工作量包括:
- 下载数据并整理成表格:用R比较方便,用Excel也行;
- 数据的可视化(画图):用R的ggplot包比较方便,推荐参考书籍:
Winston Chang. R数据可视化手册(异步图书)人民邮电出版社 - 相关变化趋势的计算:常用方法的是Estimated annual percentage change (EAPC),其原理推荐参考文献:
Hankey BF, et al. Partitioning linear trends in age-adjusted rates. Cancer Causes Control CCC 2000; 11(1):31-5. - 变化趋势的预测:见我的另一篇博文 《利用GBD数据库做未来疾病负担预测》
下面要讲的是EAPC的计算:
1. 数据的整理
以某病的年龄标准化发病率(ASIR)为例:
rm(list = ls())
library(data.table) #个人习惯,喜欢用这个包
library(tidyverse) #个人习惯,为了用管道符
years <- fread('I:/years_locations.csv')
regions_years_ASIR <- years[measure_name == 'Incidence' & #发病率
age_name == 'Age-standardized' & #年龄标准化的
metric_name == 'Rate' & #率(每10万人)
location_id