目录
比赛链接:上海科学智能研究院
赛题背景:
siRNA机制:
随着mRNA疫苗在新冠预防领域取得成功,核酸类药物的研发获得了越来越多的关注。本次比赛聚焦于通过机器学习技术,利用化学修饰后的siRNA序列来预测RNA干扰(RNAi)机制下对靶基因(target gene)的沉默效率,这一指标与药物实际疗效直接相关。RNAi是生物体内天然存在的一种基因表达调控机制,通过抑制靶基因的表达来实现降低目标蛋白量的目的,这一机制一般可通过siRNA实现。目前开源的数据库中,以RNA主干序列(裸序列)为主,缺少相应的化学修饰数据。而本赛题特别关注了化学修饰对siRNA序列功能的影响,化学修饰对siRNA的毒性、体内稳定性、靶向效果、药效等具有重大影响,在实际药物设计中至关重要。参赛者将接触到领域独特的包含靶基因、siRNA裸序列、经过化学修饰的siRNA修饰序列以及实验室测定的沉默效率值。这些数据反映了当今siRNA设计的最新科技成果,包括化学修饰的种类和位置,以及它们如何影响siRNA对靶基因的沉默效率。
赛题价值体现:
本赛题的研究成果将可以直接用于优化siRNA药物在医学研究和临床应用中的效率和安全性。优化siRNA的设计可以提高其沉默特定基因的能力,降低非特异性作用,从而增强疗效和降低副作用。这一技术的提升在疾病治疗和基因治疗领域具有极高的应用潜力和商业价值。此外通过建立对应预测模型,可以加速新型siRNA药物的虚拟筛选,促进个性化医疗的实现。
赛题任务:
提供一部分公开文献中提取的siRNA修饰序列以及相应实验条件数据(例如药物浓度、细胞系、转染方式等),随机打散后使用约85%数据训练,剩余约15%数据用于leaderboard submission评分,主要用于测试针对在训练集中出现过的目标mRNA序列,不同siRNA的沉默效率预测的准确率。
实践步骤:
1.跑通Baseline文件
通过学习群中提供的魔搭环境GPU,在5分钟跑出Baseline文件,得到了result-->submission 的运行结果文件。
2.理解Baseline代码
通过给出的Baseline文件代码所附加的注释,方便了对代码的理解和解读,有读不懂看不明白的地方,也通过学习群求助助教的过程中得到了解决。
3.观看开营直播
助教在开营直播中对比赛又做了全方位的介绍,对代码也分为十部分做了解释。在直播的最后也贴心的进行了Q&A环节,对学生们的问题进行了答疑解惑。
后续学习期望:
期望对代码有更深层次的理解,进行改编,进阶的写法。期望通过本次比赛,对大数据运算及AI有所突破。