结核病病例的建模与预测:基于机器学习和深度学习方法
1. 引言
结核病是全球第九大死因,是单一传染病致死的重要原因。2019年,预计仅结核病就导致约140万人死亡,2016年全球报告约1040万例结核病病例。在也门,肺结核控制项目宣布三年内登记了超过40190例病例,其中2019年病例数最多,达15355例,2020年为12950例,2018年为11885例。
结核病由细菌感染引起,可通过淋巴结和血液传播至全身。大多数携带结核菌的人没有症状,常见症状包括咳嗽(有时带血)、体重减轻、盗汗和发烧。结核病常见于处于生育高峰期的成年人,但所有年龄段都有感染风险。全球超过95%的病例和死亡发生在发展中国家。感染HIV的人患活动性结核病的几率高出18倍,免疫系统疾病患者也更易患病,营养不良者死亡风险高三倍,2018年全球有220万新结核病例与营养不良有关。酗酒和吸烟分别使结核病风险增加3.3倍和1.6倍,2019年全球分别有72万和70万新结核病例与酗酒和吸烟有关。
预测未来感染病例数量虽不准确,但有助于政府和卫生政策制定者做出重要决策,实施减少疾病流行的政策,通过严格有效的规则预防和控制疾病传播。时间序列预测是机器学习的重要组成部分,虽有时被忽视,但因包含许多预测问题仍很重要,不过由于时间序列问题的时间成分,这些问题更难解决。机器学习和深度学习模型可用于预测疾病未来趋势。本文应用七种模型,包括四种机器学习模型(SARIMAX、支持向量回归SVR、随机森林回归RF Regression、极端梯度提升模型XGboost)和三种深度学习模型(短期记忆网络LSTM、CNN - LSTM混合模型、多层感知器MLP模型),来确定预测也门未来十年(2020 - 2029年)肺结核阴性、阳性和结核病发病率