Datawhale AI 夏令营第三期:Task1学习笔记

一、赛题解析

    本次比赛旨在利用机器学习与深度学习相关技术,通过化学修饰后的siRNA序列预测RNA干扰(RNAi)机制下对靶基因的沉默效率。RNAi是一种通过抑制靶基因表达来调控基因表达的天然机制,在基因治疗和疾病治疗中具有广泛应用。本次比赛提供的baseline代码涵盖了数据处理、词汇表构建、序列编码和RNN模型训练等内容,帮助参赛者快速入门。

二、基本概念

1.RNA干扰(RNAi)
RNA干扰(RNAi)是一种天然存在的基因表达调控机制,通过小干扰RNA(SiRNA)等分子来沉默特定基因的表达。这一机制在细胞中起着重要作用,能精确地抑制目标基因的表达,从而减少相应蛋白质的产生。siRNA通过与靶mRNA结合,诱导RNA诱导沉默复合物(RISC)切割mRNA,最终导致mRNA降解和基因沉默。在基因治疗和疾病治疗中,RNAi技术有望通过沉默致病基因来发挥治疗作用。
2.化学修饰siRNA
化学修饰siRNA是指在SiRNA分子中引入化学修饰,以增强其稳定性、靶向性和有效性。这些修饰可以增加siRNA在体内的稳定性,减少其毒性和副作用,提高其基因沉默效率。常见的化学修饰包括磷酸酯骨架修饰、核苷酸修饰和末端修饰等。这些修饰不仅能提高siRNA的药效,还能减少非特异性沉默,提升sRNA药物的临床应用潜力。
3.深度学习与RNN
深度学习是一种基于人工神经网络的机器学习方法,擅长处理复杂的非线性关系和高维数据。递归神经网络(RNN)是一类深度学习模型,特别适用于处理序列数据。RNN通过在隐藏层中引入循环连接,可以有效捕捉序列中的时间依赖关系。在RNAi效率预测任务中,RNN能够通过学习SiRNA序列和靶mRNA序列之间的复杂关系,准确预测其基因沉默效果。

三、运行Baseline

1.打开魔塔环境,选择GPU环境,创建目录并命名。

2.在目录里上传代码和数据文件。

3.进入终端

4.解压数据集

5.运行代码。获得分数如下:

四、感悟

分数在53左右,只使用了部分特征,下一步可以尝试使用不同的深度学习模型和传统的机器学习模型做比较,选出最佳的性能。

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值