天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测总结

github源代码

赛题地址

数据地址

1 问题描述

 这个比赛的任务是预测妊娠期妇女是否患有妊娠期糖尿病,label只有一列,0表示未患病,1表示患病。一共有1000条训练样本,85维特征。线上测试样本为200条,采用F1值来评价结果好坏。由于样本较少所以很容易出现过拟合问题。在85维特征中,有30个是身体指标特征,诸如年龄、身高、体重、BMI、胆固醇指标等等,其他55个是基因特征,基因特征有3中取值0,1,2代表生物学中的AA、Aa、aa。下面介绍赛题思路。

1 连续特征类

  查看数据的分布,采用不同的填充办法,比如平均值、中值、众数等 
  以平均值为标准值,添加和平均值的差值,以及差值的绝对值
  对连续特征做归一化处理,由于后面需要对特征之间做运算,所以需要把0替换成极小值 

  归一化处理后做加减乘除和反除,以得到组合特征。 


2 离散特征类

  离散特征采用one-ht编码

  编码后的特征做与、或、异或、同或处理


2 特征筛选

  线性回归筛选特征+非线性XGBoost筛选


3 模型

  这里采用的模型主要有3种,LR、XGB和LGB,其中LR采用线性筛选得到的特征,XGB和LGB采用非线性筛选得到的特征

4 融合

  这里采用简单的加权融合的办法,最终结果线上F1值0.6429,复赛排名57。总体上来说思路比较简单,传统,和排名靠前的选手有很大的差距。下面根据答辩的情况,对每位选手的方案作出总结

5 对答辩选手的总结

  在数据填充中,选手不是采用简单的平均值和中位数的填充办法,而是Nuclear和范数填充的办法。对于特征处理,选手先去掉了相关度非常小的几个特征以剔除噪声。然后分析所有特征对于label的单调性,实际上也类似于相关度,筛选出强特征和弱特征,在对强特征之间做组合,又一次通过单调性筛选出强特征。一般迭代4,5次可以得到不错的结果。这个的筛选指标不仅仅可以使用单调性、相关度等,还可以使用 [IV值][REFCV]的办法来筛选。这里面ACEID也是一个非常不错的特征,但是缺失值很多,容易发生过拟合,选手们的办法是不填充缺失值或者干脆这个特征不用。
  在模型选择上大家都大同小异,LR、SVM、RF、GBDT、XGB、LGB都试一遍,看看效果,有一个选手用了 [Catboost]的模型。在调参上面,有选手采用了遗传算法来调试出最佳的参数,思路不错。
  后处理,,对于不确定的结果,正例和负例相接近的(患病概率为0.49~0.50之间的也预测为患病),可以在一定程度上提高成绩。
  • 1
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
天池精准医疗大赛糖尿病项目是天池平台主办的一个数据竞赛。糖尿病是一种慢性疾病,严重影响人们的健康和生活质量。为了寻找更好的糖尿病诊断和治疗方法,天池精准医疗大赛提供了一个开放的数据集供参赛者使用。 糖尿病的特点是血糖水平的异常升高,因此识别和预测糖尿病的关键在于建立一个有效的血糖预测模型。天池平台上的糖尿病数据集包含了大量的匿名化患者数据,如年龄、性别、血压、胰岛素水平等。参赛选手通过分析这些数据,可以建立一个机器学习模型,来预测一个人是否患有糖尿病或者糖尿病的严重程度。 GitHub是全球最大的开源社区平台之一,提供了一个便捷的代码托管和协作开发平台。在天池精准医疗大赛糖尿病项目中,参赛者可以使用GitHub存储和分享他们的代码、模型和解决方案。这不仅有助于开发者之间的交流和合作,还可以促进开源技术的享和发展。 通过参与天池精准医疗大赛糖尿病项目,并在GitHub上分享相关代码和解决方案,有助于推动糖尿病诊断和治疗领域的发展。更多的开发者可以参与其中,分享他们的经验和观点,提供创新的解决方案,最终为糖尿病患者提供更准确、更个性化的诊疗服务。这个竞赛的举办和GitHub的使用,都进一步推动了精准医疗人工智能在健康领域的应用,为我们的医疗事业带来了更多的希望和进步。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值