2022(一等奖)B1517基于随机森林和DT-CA的北上广深后疫情时期出行风险评估分析

作品介绍

1 需求分析

新冠疫情的爆发,不仅严重影响了社会公众生命健康,还对中国的经济和全国人民的正常生活带来了巨大的影响,而风险评估是一种能够为突发公共卫生事件提供有效防控提供科学依据的手段,对于疫情防控和复工复产都是必不可少的环节。然而,目前关于疫情风险评估的研究大多基于城市甚至国家尺度,尚未有具体至区县或社区的疾病风险评估研究。另外,通常分析地区风险时,往往采用直观的判断方法,分为累计确诊人数、新增确诊人数、累计死亡人数或死亡率、累计出院人数等几个维度,但这些方式都具有一定的局限性。

新型冠状肺炎综合风险评估是开展疫情风险管理和防控的关键途径,而评估方法是其中的关键。风险评估起初多采用基于先验知识积累的专家会商法进行,但该类方法存在一定的主观因素,而新型疾病的出现会极大增强专家会商法的局限性。随着大数据时代的到来,以数据驱动方式进行风险评估的实验可行性大大增强。因此,本项目建立基于风险社会理论,将风险拆分为脆弱性与危险性对新冠疫情风险进行评估,通过使用熵值法对数据进行处理以求数据最后的客观性,同时结合随机森林模型进行疫情出行安全性评估,借助地理建模以及使用ArcPy实现新冠疫情风险评估与新冠疫情出行安全性评估的流程化、自动化过程,实现北上广深这四个一线城市的动态风险评估;最后通过使用决策树元胞自动机对不同管控政策下的疫情情景进行模拟。使用上述方式进行可视化展示可以直观地得到不同地区的新冠疫情风险程度,从而由此制定及时有效的防控策略,有助于接下来的疫情防控和复工复产工作,同时还可以进行新冠疫情演变趋势的预测和动态预测,为抗击疫情提供科学的参考数据,同时也能对应对未来其他突发卫生公共事件提供一定的借鉴。

2 主要功能

(一)功能设计

本项目总共分为三个大板块,分别是新冠风险性评估、新冠出行安全性评估、新冠疫情情景模拟

1.新冠风险性评估由脆弱性评估与危险性评估构成,通过收集每个地区的相关指标数据,对其进行归一化处理后,计算其对应熵值得到对应每个1000m×1000m网格内的脆弱性与危险性得分,通过使用GeoScene Pro中的模型构建器以及ArcPy脚本实现流程化计算过程、自动化出图。

图1 熵值法实现脆弱性、危险性评分流程图

2.新冠出行安全性通过使用GeoScene Pro中的基于森林的分类与回归工具得到各个特征变量X的重要性指标,再将重要性得分赋予每个网格不同指标数值进行计算,得到最终新冠出行安全性同行得分。

图2 随机森林实现出行安全性评估流程图

3.新冠疫情情景模拟基于ArcGIS 10.4平台,使用由黎夏老师开发的GeoSOS for ArcGIS v2.0.0a 扩展工具,运用其中的决策树元胞自动机(DT-CA)工具,通过输入不同封控政策下的历史7d累计感染者轨迹数据以及当前7d累计感染者轨迹数据进行决策树训练后,得到不同封控政策下的情景模拟出图。

图3 DT-CA实现新冠疫情情景模拟流程图

4.关键技术

4.1 熵值法

熵值法是基于信息熵(或简称熵)的一种信息管理方法。根据熵的特性,可以据此判断出一个事件的随机性以及无序程度,也可以基于熵值判断某个指标的离散程度。

设有m个样本,n个评价指标,形成原始数据矩阵,熵值法计算流程如下所示:

(1)数据标准化

针对脆弱性、风险性不同的指标,进行数据的正、负向归一化处理,计算公式如下:

正向指标: 

负向指标: 

其中,为标准化后第i个样本的第j个指标的数值, 

(2)计算第j个指标下第i个样本占该指标的比重

(3)计算第j个指标的熵值

(4)计算第j个指标的信息效用值

(5)计算各项指标的权重

(6)计算各样本的综合得分

  

  

4.2 随机森林分类

随机森林(Random Forest,RF)拥有广泛的应用前景。随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支—集成学习(Ensemble Learning)方法。从直观角度来解释,每棵决策树都是一个分类器,那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出。

通过RF模型计算每个因变量的影响权重,对高维因变量进行降维处理,探索特征变量之间的复杂相关性。考虑数据数量限制,设置 150 棵决策树与随机占比 30%的袋外数据,将随机训练与预测过程重复 50 遍,已获得最可靠的平均净精度结果。所有的模型测试精度R2稳定在0.8-0.9之间,测试精度R2稳定在0.5-0.7之间,说明模型拟合程度较好。

 

图4 随机森林分类流程图

4.3 决策树元胞自动机(DT-CA)

元胞自动机是一种时间、空间、状态都离散,空间相互作用和时间因果关系为局部的网格动力学模型,具有模拟复杂系统时空演化过程的能力。

元胞自动机由元胞、元胞空间、元胞邻居、元胞规则组成。

图5 DT-CA决策树元胞自动机实现流程图

4.4 地理模型构建及ArcPy脚本运行

使用模型构建器,结合ArcPy脚本,将计算过程实现自动化输出。

3 作品特点

1.目前关于疫情风险评估的研究大多基于城市甚至国家尺度,尚未有具体至区县或社区的疾病风险评估研究。本项目基于网格尺度结合多源地理大数据进行了小尺度的新冠疫情风险评估研究。

2.通常分析地区风险时,往往采用直观的判断方法,分为累计确诊人数、新增确诊人数、累计死亡人数或死亡率、累计出院人数等几个维度。同时风险评估起初多采用基于先验知识积累的专家会商法进行,但该类方法存在一定的主观因素,而新型疾病的出现会极大增强专家会商法的局限性。本项目结合了社会经济数据,通过使用熵值法进行风险评估,增强了风险得分的客观性,极大的减少了由人为所带来的错误判断出现。

3.本项目基于多源地理大数据,通过构建地理模型以及编写ArcPy脚本,能够实现了北上广深疫情风险评估的每日出图,实现了动态化监控疫情风险,为进一步控制疫情提供了参考依据。

4.本项目通过使用DT-CA对不同封控政策下的新冠疫情情况进行模拟,通过不同的情景模拟能够提供疫情在不同防控政策下的发展预测并提供动态的风险防控预测,有助于接下来的疫情防控和复工复产工作。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yorov

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值