天池精准医疗大赛-冠军解决方案

关联比赛:  天池精准医疗大赛——人工智能辅助糖尿病遗传风险预测

1.赛题回顾

1.1. 竞赛背景与意义

      GDM(妊娠期糖尿病)是仅限于妊娠期发生的糖尿病,多发生在坏孕3月后,分娩后大部分恢复正常,GDM孕妇产后5-16年,大约有17-63%发展成2型糖尿病;再次妊娠时GDM的复发率高达52-69%。

      从数据挖掘、机器学习的方法上超早期精准评估GDM患病的风险,制定精准预防方案,保障母胎安全,降低GDM发病率。

图片1

1.2竞赛题目

        复赛的主要内容是利用主办方提供的包含84个特征、1个0-1标签的1000条妊娠糖尿病样本,通过数据挖掘和机器学习的方法预测出有高风险患GDM的患者。

1.3评价指标

        通过选手预测的妊娠糖尿病和实际正确的情况计算f1值。f1值取决于准确度和召回率,公式为:

1523596437473_GDxefSNVal

2.数据预处理

2.1 填充空值

        离散型变量的空值用null填充,连续型变量用平均值填充

2.2 对离散变量进行编码

        所有的SNP* , BMI分类, ACEID一共58个离散变量进行进行编码,得到SNP1_1, SNP1_2, SNP1_3, SNP1_null,SNP2_1, SNP2_2, SNP2_3, SNP2_null ……BMI分类_1, BMI分类_2, ACEID_1, ACEID_2。

2.3 线下线上的一致性

        这是一个有监督的二分类问题,每个样本的预测结果为一个概率值,我们需要从中选取一个阈值来区分是否得了妊娠糖尿病

图片2

F1

图片3

AUC

        (1)线下的评价指标使用AUC进行调参。
        (2)使用交叉验证确定线下最大的F1值时的阈值。

3.模型构建

3.1模型结构

图片4

3.2模型得分

图片5

4. 特征重要性

4.1 特征重要性排序

图片6

4.2 VAR00007

  

图片7

        VAR00007越高越容易患GDM,怀疑是胰岛素抵抗指数(HOMA-IR)[1]

4.2 RBP4(视黄醇结合蛋白-4)

图片8

        RBP4是视黄醇转运载体,主要由肝脏和脂肪组织分泌。其作为脂肪细胞因子参与了肥胖、胰岛素抵抗,妊娠本身即可导致血清RBP4的升高,升高的RBP4可能参与了妊娠胰岛素抵抗的发生,并且影响了妊娠期妇女的糖、脂代谢[2].

4.3 TG(甘油三酯)、孕前体重、孕前BMI和BMI分类

图片10

图片11

图片12

        超重、肥胖的孕妇容易患GDM[3].

4.4 年龄、孕次、产次

图片13

图片14

        再次妊娠时GDM的复发率更高[4]

4.5 DM家族史

图片15

        具有DM家族史的孕妇GDM的发病率更高[3]

4.6 hsCRP(超敏C-反应蛋白)、wbc(白细胞)

图片16

        当前身体状况偏差容易也会对GDM发病率升高[4]

4.7 收缩压、舒张压

图片17

        血压偏高的孕妇GDM的发病率偏高[5]

4.8 SNP(单核苷酸多态性)的缺失

        SNP5、SNP46缺失GDM发病率偏高

图片21

        SNP20、SNP53缺失GDM发病率偏低

4.9 SNP34和SNP37

        SNP34或者SNP37为2时GDM发病率偏高,SNP37为3时GDM发病率偏低. GDM与胰岛素抵抗和胰岛B细胞功能障碍有关,因此影响GDM的是那些调节胰岛素的功能和分泌的蛋白质,如钙蛋白酶基因calpain 10(CAPN10)的SNP-43、-63[6, 7]。

4.9 SNP34和SNP37联合特征

图片23

         CAPN-10基因SNP-43、-63及其单倍型组合[6, 7],SNP34和SNP37同时为2时GDM发病率为100%.

4.10 弱特征

        AST和ALT和GDM没有直接联系

图片20

        另外Cr(肌酐)、BUN(血尿素氮)、CHO(胆固醇)、HDLC(高密度脂蛋白胆固醇)、LDLC(低密度脂蛋白胆固醇)、ApoA1(载脂蛋白A1)、ApoB(载脂蛋白B)特征重要性也均很低。

4.11 特征重要性总结

    超早期检测这些强重要性特征。精准预防
1、VAR00007越高越容易患GDM
2、超重、肥胖的孕妇容易患GDM
3、高龄孕妇容易患GDM
4、多孕多产次的孕妇易患GDM
5、具有DM家族史的孕妇GDM的发病率更高
6、当前身体状况偏差也会对GDM发病率升高
7、血压偏高的孕妇GDM的发病率偏高
8、SNP34、SNP37等单核苷酸多态性以及联合多态性

参考文献:

[1]王凤环,李华萍.妊娠期糖尿病患者胰岛素抵抗及胰岛素分泌功能的评估[J],上海交通大学学报(医学版),2017(3),364-368
[2]苏玉霞.血清RBP4与妊娠糖尿病及其产后转归的相关性研究[D],上海:上海交通大学,2009:1-7
[3]徐菁.妊娠期糖尿病危险因素分析及患者血清RBP4、leptin、Nesfatin-1水平变化[J].中国实验诊断学,2017(3),448-451
[4]霍志平,李红霞,杜巍妊.娠前体质指数和胎次对妊娠糖尿病发病的影响[J].临床与病理杂志,2016(2),161-167
[5]诸帆.孕期糖尿病与产后糖脂代谢紊乱及高血压的相关性研究[J].中国计划生育学杂志,2018(1),29-33
[6] Gabriela Castro-Martinez, Anna; Sanchez-Corona, Jose; Patricia Vazquez-Vargas, Adriana; et al.Association analysis of calpain 10 gene variants/haplotypes with gestational diabetes mellitus among Mexican women[J].CELLULAR AND MOLECULAR BIOLOGY,2018(3),81-86
[7] 田静,孙立洲.钙蛋白酶10基因单核苷酸多态性(SNP-43、-63)与妊娠糖尿病相关性研究[J],中国优生与遗传杂志.2011(10)

查看更多内容,欢迎访问天池技术圈官方地址:天池精准医疗大赛-冠军解决方案_天池技术圈-阿里云天池

  • 11
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
天池医疗大赛糖尿病项目是天池平台主办的一个数据竞赛。糖尿病是一种慢性疾病,严重影响人们的健康和生活质量。为了寻找更好的糖尿病诊断和治疗方法,天池医疗大赛提供了一个开放的数据集供参赛者使用。 糖尿病的特点是血糖水平的异常升高,因此识别和预测糖尿病的关键在于建立一个有效的血糖预测模型。天池平台上的糖尿病数据集包含了大量的匿名化患者数据,如年龄、性别、血压、胰岛素水平等。参赛选手通过分析这些数据,可以建立一个机器学习模型,来预测一个人是否患有糖尿病或者糖尿病的严重程度。 GitHub是全球最大的开源社区平台之一,提供了一个便捷的代码托管和协作开发平台。在天池医疗大赛糖尿病项目中,参赛者可以使用GitHub存储和分享他们的代码、模型和解决方案。这不仅有助于开发者之间的交流和合作,还可以促进开源技术的共享和发展。 通过参与天池医疗大赛糖尿病项目,并在GitHub上分享相关代码和解决方案,有助于推动糖尿病诊断和治疗领域的发展。更多的开发者可以参与其中,分享他们的经验和观点,提供创新的解决方案,最终为糖尿病患者提供更确、更个性化的诊疗服务。这个竞赛的举办和GitHub的使用,都进一步推动了医疗和人工智能在健康领域的应用,为我们的医疗事业带来了更多的希望和进步。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值