Datawhale AI夏令营（生命科学）

最新推荐文章于 2024-09-15 15:29:29 发布

Kyli

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量681

点赞数 13

文章标签：人工智能

本文链接：https://blog.csdn.net/2302_77356993/article/details/140895124

版权

Datawhale 2024 年 AI 夏令营第三期的学习活动：AI+药物”方向，是基于天池平台“第二届世界科学智能大赛生命科学赛道：siRNA药物药效预测”开展的实践学习。

1.赛题介绍

利用机器学习技术，预测化学修饰后的siRNA序列在RNA干扰（RNAi）机制下对靶基因的沉默效率。RNAi是一种重要的基因表达调控机制，通过干扰特定基因的表达，可以用于疾病治疗。这次比赛的目标是通过构建并优化模型，准确预测siRNA的沉默效率，从而提升药物设计的效率和效果。

2.速通版baseline分析

速通版baseline实现了一个用于siRNA数据集的深度学习模型训练框架。

（1）依赖库的导入

（2）基因组分词器类

该类用于将基因组序列分割成固定长度的n-gram，将输入序列转换为大写；长序列按照一定的规则切分为小序列。

（3）基因组词汇类

该类用于创建一个词汇表，用于将基因组片段映射为索引，将基因组与索引相关联，统计其中基因频率高的基因片段，并舍去出现频率较低的基因片段，达到精简数据的作用。

（4）siRNA数据集类

该类用于加载siRNA数据，并将序列数据转换为模型可以处理的格式。

（5）siRNA Model

这是一个基于GRU的RNN神经网络模型，用于处理siRNA序列。

1.RNN，全称为递归神经网络，擅长处理序列数据,能够记住以前的数据，并利用这些记忆来处理当前的数据。

RNN 在处理序列数据时具有一定的局限性：
- 长期依赖问题：RNN 难以记住和利用很久以前的信息。这是因为在长序列中，随着时间步的增加，早期的信息会逐渐被后来的信息覆盖或淡化。
- 梯度消失和爆炸问题：在反向传播过程中，RNN 的梯度可能会变得非常小（梯度消失）或非常大（梯度爆炸），这会导致训练过程变得困难。

为了解决这些问题，引入LSTM（长短期记忆网络）的简化版本GRU（门控循环单元）进行改进。

（6）评估指标计算函数

该函数用于计算模型的各项评估指标，包括精确度、召回率、F1值和评分。

（7）模型评估函数

该函数用于在测试集上评估模型性能。

（8）模型训练函数

函数用于训练模型，并在每个epoch后评估模型的性能，保存最佳模型。

（9）训练主程序

（10）测试程序

3.基于lightgbm的baseline

使用lightgbm模型后，代码明显精简，运行速率和结果分数都大大提高。

（1）特征工程

把序列特征的问题转化为表格问题，并在表格数据上做特征工程。

#假设siRNA的序列为ACGCA...，可根据rna背景知识，对碱基的模式进行特征构造
def siRNA_feat_builder(s: pd.Series, anti: bool = False):
    name = "anti" if anti else "sense"
    df = s.to_frame()
    df[f"feat_siRNA_{name}_seq_len"] = s.str.len()
    for pos in [0, -1]:
        for c in list("AUGC"):
            df[f"feat_siRNA_{name}_seq_{c}_{'front' if pos == 0 else 'back'}"] = (
                s.str[pos] == c
            )
    df[f"feat_siRNA_{name}_seq_pattern_1"] = s.str.startswith("AA") & s.str.endswith(
        "UU"
    )
    df[f"feat_siRNA_{name}_seq_pattern_2"] = s.str.startswith("GA") & s.str.endswith(
        "UU"
    )
    df[f"feat_siRNA_{name}_seq_pattern_3"] = s.str.startswith("CA") & s.str.endswith(
        "UU"
    )
    df[f"feat_siRNA_{name}_seq_pattern_4"] = s.str.startswith("UA") & s.str.endswith(
        "UU"
    )
    df[f"feat_siRNA_{name}_seq_pattern_5"] = s.str.startswith("UU") & s.str.endswith(
        "AA"
    )
    df[f"feat_siRNA_{name}_seq_pattern_6"] = s.str.startswith("UU") & s.str.endswith(
        "GA"
    )
    df[f"feat_siRNA_{name}_seq_pattern_7"] = s.str.startswith("UU") & s.str.endswith(
        "CA"
    )
    df[f"feat_siRNA_{name}_seq_pattern_8"] = s.str.startswith("UU") & s.str.endswith(
        "UA"
    )
    df[f"feat_siRNA_{name}_seq_pattern_9"] = s.str[1] == "A"
    df[f"feat_siRNA_{name}_seq_pattern_10"] = s.str[-2] == "A"
    df[f"feat_siRNA_{name}_seq_pattern_GC_frac"] = (
        s.str.contains("G") + s.str.contains("C")
    ) / s.str.len()
    return df.iloc[:, 1:]

df_publication_id = pd.get_dummies(df.publication_id)
df_publication_id.columns = [
    f"feat_publication_id_{c}" for c in df_publication_id.columns
]
## 如果有40个类别，那么会产生40列，如果第i行属于第j个类别，那么第j列第i行就是1，否则为0
df_gene_target_symbol_name = pd.get_dummies(df.gene_target_symbol_name)
df_gene_target_symbol_name.columns = [
    f"feat_gene_target_symbol_name_{c}" for c in df_gene_target_symbol_name.columns
]
df_gene_target_ncbi_id = pd.get_dummies(df.gene_target_ncbi_id)
df_gene_target_ncbi_id.columns = [
    f"feat_gene_target_ncbi_id_{c}" for c in df_gene_target_ncbi_id.columns
]
df_gene_target_species = pd.get_dummies(df.gene_target_species)
df_gene_target_species.columns = [
    f"feat_gene_target_species_{c}" for c in df_gene_target_species.columns
]
siRNA_duplex_id_values = df.siRNA_duplex_id.str[3:-2].str.strip(".").astype("int")
siRNA_duplex_id_values = (siRNA_duplex_id_values - siRNA_duplex_id_values.min()) / (
    siRNA_duplex_id_values.max() - siRNA_duplex_id_values.min()
)
df_siRNA_duplex_id = pd.DataFrame(siRNA_duplex_id_values)
#包含某些单词
df_cell_line_donor = pd.get_dummies(df.cell_line_donor)
df_cell_line_donor.columns = [
    f"feat_cell_line_donor_{c}" for c in df_cell_line_donor.columns
]
# 包含Hepatocytes
df_cell_line_donor["feat_cell_line_donor_hepatocytes"] = (
    (df.cell_line_donor.str.contains("Hepatocytes")).fillna(False).astype("int")
)
# 包含Cells
df_cell_line_donor["feat_cell_line_donor_cells"] = (
    df.cell_line_donor.str.contains("Cells").fillna(False).astype("int")
)
df_siRNA_concentration = df.siRNA_concentration.to_frame()
df_Transfection_method = pd.get_dummies(df.Transfection_method)
df_Transfection_method.columns = [
    f"feat_Transfection_method_{c}" for c in df_Transfection_method.columns
]
df_Duration_after_transfection_h = pd.get_dummies(df.Duration_after_transfection_h)
df_Duration_after_transfection_h.columns = [
    f"feat_Duration_after_transfection_h_{c}"
    for c in df_Duration_after_transfection_h.columns
]

（2）lightgbm模型

得到表格数据后，使用lightgbm模型来进行预测：

train_data = lgb.Dataset(X_train, label=y_train)
test_data = lgb.Dataset(X_test, label=y_test, reference=train_data)

def print_validation_result(env):
    result = env.evaluation_result_list[-1]
    print(f"[{env.iteration}] {result[1]}'s {result[0]}: {result[2]}")

params = {
    "boosting_type": "gbdt",
    "objective": "regression",
    "metric": "root_mean_squared_error",
    "max_depth": 7,
    "learning_rate": 0.02,
    "verbose": 0,
}

gbm = lgb.train(
    params,
    train_data,
    num_boost_round=15000,
    valid_sets=[test_data],
    callbacks=[print_validation_result],
)

简单修改代码参数如下后，提交分数有一些上涨，从0.7590到0.7690，但是将迭代次数提到80000，分数却产生了降低，运行速度明显变慢，提升到100000后，运行了一个多小时也没有运行出结果，代码还是需要进一步的优化。

gbm = lgb.train(
    params,
    train_data,
    num_boost_round=50000,
    valid_sets=[test_data],
    callbacks=[print_validation_result],
)

Kyli

关注

13
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫