AI+生命科学方向第一课【Datawhale AI夏令营】

[我是大佬的搬运工]

01 赛题背景解析

http://competition.sais.com.cn/competitionDetail/532230/format

翻译一下:

  • mRNA:疾病基因

  • siRNA:药物基因

  • RNAi:药物基因作用于疾病基因的机制

  • 我们要完成的任务:预测某类药物基因对某类疾病基因的治疗效果

解释赛题相关文件

数据表格

训练集打开之后如下图所示

  • A:数据的唯一标识

  • B:数据来源的文献

  • C:需要去除的疾病基因名称

  • D:疾病基因(mRNA)编号

  • E:带有疾病基因的物种

  • F:药物基因的编号

  • G:药物基因的正义序列,与疾病基因序列相似或相同,用于稳定和辅助

  • H:药物基因的反义序列,与疾病基因序列几乎完全互补,用于识别并结合疾病基因,使其降解或无法表达

    • 所谓正义,反义规则如下图所示

  • I:细胞系,同一个细胞系来源于同一个“祖先”

  • J、K:表示使用药物的剂量,J表示数值,K表示单位

  • L:药物导入细胞的方法

    • 脂质体感染

    • 自由摄取

    • 等等

  • M:药物作用时长(测量时间:经过24h/48h/*h进行测量)

  • N:修饰后的正义序列

  • O:修饰后的反义序列

  • P:加工后的N

  • Q:加工后的P

  • R:疾病基因(靶基因)的序列

  • S:疾病基因的剩余量,也就是我们的最终任务——药物作用后的治疗效果

名词解析表格

02 Baseline速通
流程概述

两个文件:

  • dw大佬标注过的ipynb文件

  • 数据集文件

  1. 将数据集压缩包解压完后一键运行

  2. 下载submission结果、关闭实例

  3. 官网提交成绩(没人每天提交三次,每次分数需要等待一分钟出分)

  4. dw提交打卡成绩

代码分为十个部分进行理解:
  1. 库的导入

  2. 创建基因组分词器:将输入序列转换为大写;长序列按照一定的规则切分为小序列

  3. 创建基因组词汇表:将基因组与索引相关联,统计其中基因频率高的基因片段

  4. siRNA数据集的转换:将siRNA序列数据转换为模型可以处理的格式

    1. 序列数据:按照一定顺序排列的数据集合,包含了与其前后相邻数据项相关的信息

  5. siRNA Model:基于GRU的神经网络模型
    1. GRU:使用重置门和更新门最大化使用算力
  6. 评估指标计算函数:根据官方设定,对精确度、召回率、F1值和评分进行代码实现
  7. 模型评估函数:使用第六步的函数进一步在测试集上评估模型的性能
  8. 模型训练函数:用于训练模型,在每一个epoch(神经网络遍历一遍数据)之后评估模型的性能
  9. 训练主程序:在这里可以进行模型参数的优化,也就是调参
  10. 进行模型测试,输出最终结果

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值