一、赛题背景
本次比赛旨在利用机器学习与深度学习相关技术,通过化学修饰后的siRNA序列预测RNA干扰(RNAi)机制下对靶基因的沉默效率。
二、前置知识
1、RNAi:一种通过双链RNA分子来“关闭”或降低特定基因表达水平的技术或现象。
2、深度学习:使用很多层的神经网络来自动从数据中学习复杂特征,并用于解决各种任务
3、RNN:一种特殊的神经网络,它有一个“记忆”功能。
4、数据处理:清洗原始数据,清除异常值和缺失值。(可利用Pandas和Matplotlib来查看异常值)
5、特征选择:选择最具有代表性的特征。
6、模型训练:调整参数,观察平均绝对误差和的值和F1的得分。
7、Pytorch:一个非常流行的开源机器学习库,特别是用于深度学习任务。它允许开发者使用Python来构建和训练神经网络,具有直观、灵活和易于使用的特点。通过PyTorch,你可以轻松地定义模型、计算损失、优化参数,并处理各种类型的数据,如图像、文本等。简而言之,PyTorch是深度学习和机器学习项目的一个强大工具。
8、随机种子:一个用于随机数生成算法的起始值或初始状态。
三、学习感受
跑完baseline感觉就是嗖的一下就跑完了,baseline里面给的代码功能介绍给的很详细并且在代码运行时也有epoch进度条显示,感觉很不错,虽然这次成绩一般,继续努力吧!!!
四、个人提分建议:我觉得可以适当的调大一点ngram和stride来减少重叠度。除此之外,也可以适当减少epoch次数,因为50次好像已经过拟合了,增加不必要的训练时间。同时减小训练批次数,来提高精度和得分。同时对于学习率可以采用相关的学习率自动化调整的方法例如:余弦退火学习算法之类的。