本笔记记录的是Datawhale 2024 年 AI 夏令营第三期的学习活动(“AI+药物”方向),基于天池平台“第二届世界科学智能大赛 生命科学赛道:siRNA药物药效预测”开展的实践学习心得。
1.报名参赛
首先,我到天池平台报名参加了比赛——“第二届世界科学智能大赛 生命科学赛道:siRNA药物药效预测”
赛事链接:http://competition.sais.com.cn/competitionDetail/532230/format
2.小白速通流程
身为一名无基础的小白,我根据夏令营的速通指南,下载相关的赛事文件,启动魔搭GPU环境,启动了实例
魔搭链接:https://modelscope.cn/my/mynotebook/preset
这是我第一次使用GPU环境,感觉很是新奇
在成功进入环境后,导入相关的文件,进入终端运行相关文件,获得结果后将结果上传到赛事官网,获得了我运行出来的第一个分数。
3.赛题解析与思路概览
在官网中,本赛题的背景介绍为RNA干扰(RNAi)是生物细 胞内天然存在的一种基因表达调控机制,可抵御 外来核酸的入侵和控制基因表达。其中小干扰 RNA(siRNA)是RNAi机制的主要作用分子。 siRNA相关现象及作用机制的发现获得了2006年诺 贝尔生理学或医学奖,2018年世界上首款siRNA药 物获得美国FDA批准。相比于传统小分子药物, siRNA具有可成药靶点多、药效强、安全性好、成 本低的优势,其研发是全球范围内极具发展潜力 的前沿医药领域之一。siRNA的化学修饰对siRNA 在体内的稳定性、毒性、药代动力学特性至关重 要,是siRNA研发中的重要影响因素,本赛题聚焦 经过化学修饰的siRNA序列数据预测其对相应的信 使RNA(mRNA)沉默效率指标,对指导siRNA药 物设计具有重要指向性作用。
生物知识已经离我远去,但大致还是能找到一些关键词
RNA干扰(RNAi),作用机制
小干扰 RNA(siRNA),作用分子
信 使RNA(mRNA),目标基因
本赛题聚焦 经过化学修饰的siRNA序列数据预测其对相应的信 使RNA(mRNA)沉默效率指标,对指导siRNA药 物设计具有重要指向性作用。
官方提供了一些文件,其中在训练集中有很多的指标,也是我们需要处理并利用的一些数据。对这些数据的内容有一定的了解是很重要的一个点。
那么该如何去处理数据,如何选择合适的模型,如何评价模型,是接下去该学习的部分,在训练营中,为我们提供了一个有详细备注的baseline,但作为小白我对其具体的实现方法仍是较难理解,需要我后续进一步的学习。