数据挖掘肿瘤预测_最新成年人群癌症预测模型:基于中国健康与营养调查(CHNS)数据!...

2015年中国恶性肿瘤发病率约285.83/10万,死亡率约为170.05/10万,恶性肿瘤发病率、死亡率近十几年来分别保持3.9%、2.5%的增幅,疾病负担呈持续上升趋势。而肿瘤风险预测对于提高人群健康水平、降低患者经济负担意义重大。但随着医疗大数据的产生,传统的统计预测方法逐渐无法满足需求,有必要尝试开展机器学习等新方法在肿瘤预测领域的应用。

研究方法

数据来源于中国健康与营养调查(CHNS),以我国12个地区(黑龙江、辽宁、湖南、山东、贵州、江苏、广西、湖北、河南、北京、上海和重庆)城乡成年(≥18岁)常住居民为对象,经过数据清理,最终纳入研究对象19 410例。将研究对象按2∶1分为训练集和测试集,基于逐步Logistic回归分析的变量筛选策略,在训练集上分别建立逐步Logistic回归、支持向量机、XGboost肿瘤患病风险预测模型,并在测试集上进行验证。通过比较各模型受试者工作特征曲线(ROC曲线)下面积(AUC),分析各模型预测肿瘤患病风险的性能。

研究结果

19 410例研究对象中,被诊断为肿瘤患者262例(1.35%)。训练集(n=12 919)中含有174例肿瘤患者,测试集(n=6 491)含有88例肿瘤患者。逐步Logistic回归分析、支持向量机、XGboost在测试集中预测成年人群患肿瘤的正确率分别为72.96%(95%CI:71.86%,74.04%)、99.54%(95%CI:99.34%,99.69%)、70.05%(95%CI:68.92%,71.16%),AUC分别为76.75%(95%CI:72.35%,81.14%)、86.32%(95%CI:81.64%,91.00%)、79.03%(95%CI:74.96%,83.10%)。支持向量机、XGboost预测成年人群患肿瘤的AUC与Logistic回归模型比较,差异有统计学意义(Z值分别为-2.519、-2.138,P值分别为0.012、0.032);XGboost预测成年人群患肿瘤的AUC低于支持向量机,差异有统计学意义(Z=2.081,P=0.037)。

研究结论

支持向量机相较于逐步Logistic回归分析预测成年人群肿瘤患病风险的正确率、灵敏度、特异度、AUC等指标较好,而XGboost未见明显优势,但考虑到逐步Logistic回归分析操作的便捷性和可解释性优势,建议在肿瘤风险预测方面,采用支持向量机与逐步Logistic回归分析相结合的模式。

小编寄语

前面介绍的肿瘤患病风险预测模型表现出较高的预测正确率及稳健性,可以提前给予肿瘤风险预警,从而可根据风险指标开展精准健康干预,为肿瘤预防提供一定的临床指导和帮助。但本研究也有一定局限性,例如进入模型的特征未包含生化指标、环境指标、饮食摄入情况等因素。在大数据的背景下,利用数据挖掘处理海量多源健康数据,建立预测效能高、训练速度快的模型是医疗领域的重要方向。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值