整理自:https://mp.weixin.qq.com/s/hbr6Lk0b7KZOw3kTvltKgQ
【题目】:
基于卫星数据反演及空间分析方法对由pm2.5引导的中国男性肺癌的发病率的预测
【文章出处】:
Xiao Han , Yuqin Liu , Hong Gao ,Jianmin Ma, Xiaoxuan Mao , Yuting Wang , Xudong Ma,Forecasting PM2.5 induced male lungcancer morbidity in China usingsatellite retrieved PM2.5 and spatial analysis.Science of the TotalEnvironment.607–608 (2017) 1009–1017
【研究内容】:
- 利用空间自相关分析遥感影像大气PM2.5浓度与2006-2009年的肺癌发病率之间的空间关系。
- 根据遥感影像PM2.5浓度预测中国男性肺癌发病率的空间分布。
- 采用综合灰色关联度分析评估肺癌发病率与PM2.5浓度的同时或滞后关系。这些关系被应用于预测男性某一年份肺癌发病率。
【构建模型准备】:
- 计算2006-2009年男性肺癌发病率Moran’I和Z值。
- 置信水平小于0.05(或者0.01),|Z|>1.96(或者>2.54)表明空间自相关有意义,在区域内不是随机分布的。
- 研究表明PM2.5对肺癌影响具有滞后性。
- 计算了一年发病率和前8年PM2.5关系,前8年代表为Lag0,Lag1,Lag2, Lag3, Lag4, Lag5, Lag6, Lag7, and Lag8。
- 估计灰色综合关联度结果如下所示。相关度大于0.7认为有影响。相关度0.5-0.7有重要影响。结果显示PM2.5滞后影响对-肺癌发病率影响大。
【模型构建】:
1、岭回归(RR)
- 概念:一般用来解决变量之间强相关性的多重共线性问题。
- 软件:SAS(Statistical Analysis System)
- 结果:回归系数往往接近稳态的在k>0.3.岭回归和最小二乘回归的均方根误差(RMSE)分别为23.632、23.063.选择k=0.3
- 拟合公式:
2、偏最小二乘回归(PLSR)
- 概念:偏最小二乘回归是一种统计分析方法,结合了多元线性回归、主成分分析、典型相关分析*的优点。
- 软件:SAS
- 拟合公式:
3、支持向量机回归(SVR)
- 概念:常用于统计预测。
- 软件:SPSS Clementine 12.0
- 过程:输入2007-2009年男性肺癌发病率作为因变量y,前8年每年平均PM2.5浓度作为独立变量(Lag8, Lag7, Lag6, Lag5, Lag4, Lag3, Lag2, Lag1, Lag0),模型训练尝试了4个核函数,linear kernelfunction, sigmoid kernel function, RBF kernelfunction, polynomial kernel function。
- 结果:经过比较linear kernelfunction训练精度高。
4、组合预测模型(CFM)
- 概念:综合多个单预测结果得到综合预测结果。
- 过程:每一个单一模型赋值一个权重W = [W1, W2, … Wi], (i = 1,2, … N),n个权重的和为1。每一个模型预测结果为fi,组合结果为Y。Y=W1f1 +W2f2 +….+Wnfn.权重可以用平均值法,标准差法,最优加权法和变异系数法计算。本研究的三个单一模型分别为岭回归模型f(a)、偏最小二乘回归模型f(b)和支持向量回归模型f©。
- 组合公式:Y = 0.03134 f(a) +0.3088 f(b) +0.3778 f©.
【模型误差验证】:
1、均方误差(MSE)
2、平均绝对误差(MAE)
3、平均绝对百分比误差(MAPE)
4、Thil不等式系数(Theil IC)
5、偏差比例(BP)
6、方差比例(VP)
7、协方差比(CP)
- 评价模型误差表明偏最小二乘回归模型在男性肺癌发病率预测中表现最佳。
- 2006年的癌症发病率不参与模型构建,用来验证精度,结果如下,偏最小二乘回归(PLSR)有最低的MSE,MAE,Theil IC、BP、VP值相比其它三种回归模型中,和最高CP值。
【预测PM2.5诱发癌症发病率】:
- 2010-2015 (a–f)全国男性肺癌发病率(除了新疆),新疆有很多沙漠和戈壁,大部分肺癌发病率数据不可用。红色代表高肺癌发病率,蓝色代表低肺癌发病率区域。
- 下图显示8年PM2.5浓度和,(a)2002年至2010年期间PM2.5浓度和,(b)2003年至2011年,©2004年至2012年期间,(d)在2005年至2013年,(e2006年至2014年,(f)2007年至2015年。红色区域代表高PM2.5浓度。
【结论】:
- 证明了从2006年到2009年男性肺癌的发病率在空间上与地面同年和前8年的PM2.5浓度存在滞后关系。
- 建立几个统计预测模型预测男性肺癌发病率的空间分布。结果显示肺癌发病率从西到东,从南到北增多。符合人口密度和工业活动强度的空间分布。
- 其它研究表明男性吸烟率近十年一直在减少,吸烟是肺癌的主要诱因之一,肺癌发病率并没有随着吸烟率下降而下降,近些年空气污染也是一个重要因素,PM2.5浓度升高对肺癌发病率有重要影响。