0 概述
糖尿病是一种严重危害人类身体健康的慢性病,是由于胰岛素分泌不足或外围组织对胰岛素不敏感而引起的代谢性疾病,其以持续的高血糖状态为特征,容易致使各种组织器官长期受损。
根据国际糖尿病联盟(IDF)统计,2017年全球糖尿病患者约有4.25亿人,每11名成年人中就有1人患有糖尿病,每2名患者中就有1名未确诊[1]。预计到2045年,全球将有近7亿人患糖尿病。据统计,2017年我国成年糖尿病患病人数达到1.14亿,相应医疗支出高达1 100亿美元,超过130万人死于糖尿病及其并发症,其中41%以上的人年龄低于60岁,逐渐呈年轻化趋势[1-2]。
糖尿病无法根治,且容易引发多种并发症,为社会和家庭带来沉重的经济负担。全球每年用于糖尿病人群的医疗支出费用为8 270亿美元,占所有医疗支出的12%。目前糖尿病已经严重影响到居民健康水平和经济的快速发展,糖尿病预测问题亟待解决。因此,本文针对糖尿病的临床指标,结合Xgboost的预测优势和遗传算法的搜索能力,建立GA_Xgboost预测模型,对血糖值进行预测,确定高危人群并提前预警,辅助医生进行早期干预,从而降低糖尿病发病率。
1 相关研究
目前,大量学者对糖尿病预测进行了深入研究,构建了许多预测模型。这些预测模型根据不同应用场景而建立,对于推动糖尿病的快速诊断进而提高医生诊断效率具有重要作用。
1.1 回归模型
回归模型是一种研究因变量和自变量关系的预测性建模技术,该模型综合考虑各种可能危险因素,通常以多元回归模型或Cox比例风险模型预测未来一定时间内糖尿病的发病概率。
多元回归模型是应用较广泛的一种方法,既可以用于个体糖尿病发病风险的预测,如文献[3]建立的糖尿病视网膜病变预测模型,也可以用于群体糖尿病危险因素的研究,如文献[4]对我国农村居民糖尿病患病因素的分析。多元回归模型解释性强但精度欠佳,不适用于大量指标的预测。
Cox回归模型以生存结局和生存时间为因变量,可同时分析众多因素对生存期的影响,常用于医学随访研究。文献[5]用Cox回归模型建立了适合中国人群的糖尿病风险预测模型,文献[