AI4Bio-首届世界科学智能大赛:生命科学赛道——生物学年龄评价与年龄相关疾病风险预测 环境配置与baseline运行

背景知识&数据集

数据为健康人和患者的甲基化数据,每个样本包含多个甲基化位点的水平。甲基化水平会影响基因的表达,并且与个体年龄相关。

初赛的目标是构建能够评价样本生物学年龄的生物学时钟,属于回归任务。

  • 健康样本的生物学年龄尽可能接近真实年龄。
  • 患病样本的年龄高于真实年龄

公开数据包含10296个样本,训练集80%,每个样本提供485512个位点的甲基化数据。

患病样本的疾病涉及:Alzheimer’s disease,schizophrenia,Parkinson’s disease,rheumatoid arthritis,stroke,Huntington’s disease,Graves’ disease,type 2 diabetes,Sjogren’s syndrome等

sample_idagegendersample_typedisease
1train1000186Mdisease tissueAlzheimer’s disease
2train1000289Mdisease tissueAlzheimer’s disease
3train1000380Fdisease tissueAlzheimer’s disease

traindata.csv : 大小为(8233, 485512)

评价指标

包含多个评价指标:

  1. 健康MAE(mean absolute error)
    M A E c o n t r o l = 1 N ∑ i ∣ y − y ^ ∣ \mathrm{MAE}_{control} = \frac 1 N \sum_i|y - \hat y| MAEcontrol=N1iyy^

  2. 患病MAE
    M A E c a s e = 1 M ( ∑ i ( ∣ y − y ^ ∣ 2 ∗ 1 y ^ ≥ y + ∣ y − y ^ ∣ ∗ 1 y ^ < y ) ) \mathrm{MAE}_{case} = \frac 1 M \left(\sum_i(\frac {|y - \hat y|} 2 * 1_{\hat y \ge y} + |y - \hat y| * 1_{\hat y < y})\right) MAEcase=M1(i(2yy^1y^y+yy^1y^<y))

  3. 疾病预测的 F 1 − s c o r e F_1-score F1score

    F 1 = 2 ∗ P ∗ R P + R P = T P T P + F P R = T P T P + F N \begin{array}{l} F_1 = \frac {2 * P * R}{P + R}\\ P = \frac {TP} {TP + FP}\\ R = \frac {TP} {TP + FN} \end{array} F1=P+R2PRP=TP+FPTPR=TP+FNTP

提交格式

  • 第一行为sample_id, age
  • 后续行输出sample_idage,用逗号分隔,age保留两位

思路

特征很多,NaN也不少,需要特征设计。

先跑一下baseline试试。

在这里插入图片描述

配置阿里云

部署Pai-DSW

  1. 打开阿里云,产品 > 人工智能与机器学习 > 机器学习平台PAI

  2. 交互式建模DSW免费试用,领取就可

在这里插入图片描述

  1. 需要先开通PAI并创建工作空间,创建结束后点进去就可以

  2. 选择左侧的交互式建模DSW,点击创建实例,可能需要授权PAI,同意即可

在这里插入图片描述

  1. 配置资源组,GPU选择V100;如果没有在当前工作空间内找到资源组的话,可能是没授权的原因

在这里插入图片描述

去授权DLC,然后进行关联

在这里插入图片描述

  1. 刷新一下资源组,选择GPU规格 > V100,镜像选择torch1.12

在这里插入图片描述

在这里插入图片描述

  1. 点击下一步,然后创建实例

在这里插入图片描述

  1. 打开实例,控制台(Terminal)更新下apt-get

    apt-get update
    
  2. 安装git

    apt-get install git-lfs
    git init
    git lfs insatll
    

在这里插入图片描述

  1. 安装unzip,用来解压数据集

    apt-get install unzip
    

下载数据

使用Ossutil命令下载数据集

进入赛题首页 > 赛题与数据

在这里插入图片描述

可以看到数据集那里有Ossutil命令,点击并复制内网命令,拷入控制台运行即可,下载成功的话会提示Succeed。

在这里插入图片描述

上传baseline

下载baseline后,点击上传,把baseline传上去

在这里插入图片描述

在这里插入图片描述

解压数据

打开baseline文件,根据提示操作

  • 新建ai4bio文件夹

  • 解压数据,baseline里面这段代码好像缺失了,写个新的notebook补上(我这里路径和baseline里面不太一样)

在这里插入图片描述

跑一遍baseline并提交

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

参考:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Recitative

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值