#Datawhale AI夏令营#
task1 学习笔记
了解赛道背景和任务:
现有mRNA(简单理解为疾病基因)、siRNA(简单理解为药物基因)、RNAi(简单理解为药物基因作用于疾病基因的机制),我们的任务就是通过构建并优化模型,准确预测某类药物基因对某类疾病基因的治疗效果,
数据集:
包括siRNA裸序列、经过化学修饰的siRNA序列、目标mRNA序列以及实验条件。我们的模型需要训练mRNA_remaining_pct,表示siRNA对靶基因沉默后的剩余mRNA百分比,值越低表示沉默效率越好。
深度学习模型训练框架的主要内容有:
1、依赖库的导入,包含torch深度学习框架、torch.nn神经网络模块等。
2、定义基因组分词器类
3、定义基因组词汇类
4、定义siRNA数据集类
加载siRNA数据,并将序列数据转换为模型可以处理的格式
序列数据:按照一定的顺序排列的数据集合,一个重要特性是每个数据项通常都包含了与其前后相邻数据项相关的信息。
5、构建siRNA Model
一个基于GRU的神经网络模型,用于处理siRNA序列。
6、评估指标计算函数
该函数用于计算模型的各项评估指标,包括精确度、召回率、F1值和评分。
7、模型评估函数
8、模型训练函数
用于训练模型,并在每个epoch后,评估模型的性能,保存最佳模型。
epoch:神经网络已经遍历(或者说学习)了训练集中的每个样本一次。
9、训练主程序:优化模型的参数,使模型能够学习数据的特征并做出准确的预测或分类。
10、测试程序:用于评估训练好的模型或软件在实际使用中的性能和表现。
小结:本task主要介绍了相关背景知识和学习任务,通过阅读代码,了解到了深度学习的基本程序步骤。在接下来的task2、task3中,我们的主要任务就是修改模型中的参数,从而让预测结果更加精确,更好“上分”。