从特征和模型训练两个角度优化上次的代码
生物学角度新特征
1.使用反义链与target gene序列的序列匹配结果作为特征来增强模型表现。
2.GC含量是siRNA效率中的一个重要且基本的参数,可以作为模型预测的特征。
3.将修饰过的碱基序列也进行编码,简单的编码方式是将带有修饰的核苷酸编码为和普通核苷酸不一样的输入向量,复杂的编码方式是将不同修饰在化学上的差异也加入模型中。
lgm上分实现
在之前的基础上优化了模型
由原来的root_mean_squared_error
评价指标被替换为更加复杂的官方评价分数
,具体公式为:
$$\text{score} = 50\% \times \left(1 - \frac{\text{MAE}}{100}\right) + 50\% \times F1 \times \left(1 - \frac{\text{Range-MAE}}{100}\right)$$
通过自适应学习率、多折交叉训练进一步优化