生命科学siRNA药物药效预测之特征工程进阶（Datawhale AI 夏令营）

最新推荐文章于 2024-10-11 11:18:48 发布

会飞的Anthony

最新推荐文章于 2024-10-11 11:18:48 发布

阅读量1.4k

点赞数 33

分类专栏：人工智能文章标签：人工智能

本文链接：https://blog.csdn.net/ljd939952281/article/details/140806699

版权

人工智能专栏收录该内容

179 篇文章 4 订阅

订阅专栏

在前几篇文章中，我们已经探索了基础的特征工程方法及其在siRNA药物药效预测中的应用。本文将进一步深入，介绍从生物学角度出发的新特征，以期提升模型的预测性能。

生物学角度的新特征

1. 反义链与target gene序列的匹配特征

siRNA在靶向mRNA时，其反义链与目标基因的序列匹配程度及位置非常关键。具体来说，siRNA与mRNA 3′非翻译区（UTR）的部分匹配通常会抑制翻译，而完全互补则会导致mRNA被内切核酸酶降解。为了量化这种匹配特征，我们可以计算siRNA反义链与target gene的局部序列相似性得分。这些得分可以通过比对算法，如Needleman-Wunsch或Smith-Waterman算法，来计算局部或全局的匹配分数。这不仅有助于捕捉siRNA与mRNA相互作用的细节，还能反映出不同结合模式对沉默效率的影响。

from Bio import pairwise2

def get_alignment_score(seq1, seq2):
    alignments = pairwise2.align.globalxx(seq1, seq2)
    best_alignment = alignments[0]
    score = best_alignment[2]
    return score

在代码中，我们可以对每一对siRNA反义链和target gene进行比对，计算其匹配分数。这个分数可以直接作为一个新的特征加入模型。

2. GC含量特征

GC含量是siRNA效率的重要指标。一般认为，最佳的GC含量范围在31.6%到57.9%之间。在我们的特征工程中，不仅要计算整体GC含量，还需要细分到特定的核苷酸位置，如第2到第7个核苷酸和第8到第18个核苷酸区域。特别是第9到第14个核苷酸之间的低GC含量区域，被称为“能量谷”，它对RISC复合体的功能有促进作用。

def calculate_gc_content(sequence):
    gc_count = sequence.count('G') + sequence.count('C')
    return gc_count / len(sequence)

def siRNA_gc_features(seq):
    overall_gc = calculate_gc_content(seq)
    region1_gc = calculate_gc_content(seq[1:7])
    region2_gc = calculate_gc_content(seq[8:18])
    energy_valley = (region1_gc < 0.3) and (region2_gc < 0.3)
    return overall_gc, region1_gc, region2_gc, energy_valley

3. 化学修饰序列的编码

化学修饰对siRNA的稳定性、特异性和免疫反应有重要影响。我们不仅要考虑是否存在化学修饰，还要量化不同修饰类型及其位置的作用。例如，2′-O-甲基修饰可以减少免疫反应，提高治疗效果。我们可以将修饰类型作为类别特征编码，同时记录修饰的具体位置和种类。

def encode_modifications(seq):
    modifications = []
    for base in seq:
        if base.islower():  # 假设小写字母表示修饰
            modifications.append(1)
        else:
            modifications.append(0)
    return modifications

# 示例：对siRNA序列中的化学修饰进行编码
modified_seq = "gGgCuUu"
modifications = encode_modifications(modified_seq)

通过这样的编码方式，我们可以将不同的修饰信息整合到模型特征中，使模型能够学习到修饰对siRNA功能的影响。

lgm上分实现

接下来，我们将这些新特征整合到模型中，并进一步优化模型的性能。

1. 引入新特征

我们不仅要添加新特征，还需要确保这些特征与现有特征的合理组合。在特征工程过程中，需要仔细处理每个特征的尺度和分布，以避免模型偏向某些特征。

2. 模型优化

在模型优化方面，我们可以引入以下几种策略：

低Remaining范围样本高权重：对低Remaining值的样本赋予更高的权重，以更精确地预测这些关键样本。
使用官方评价指标作为损失函数：在训练过程中直接使用任务目标的评价指标来指导模型优化。
自适应学习率：通过自适应学习率调整，根据模型性能动态调整学习率，提高模型的收敛速度和稳定性。
多折交叉训练：通过多折交叉验证，提高模型的稳定性和泛化能力。

import lightgbm as lgb

# 自定义评价指标
def custom_loss(y_true, y_pred):
    mae = np.mean(np.abs(y_true - y_pred))
    f1 = 2 * precision * recall / (precision + recall)
    score = 0.5 * (1 - mae / 100) + 0.5 * f1 * (1 - range_mae / 100)
    return score

# 自适应学习率
def adaptive_learning_rate(current_lr, decay_rate=0.9, patience=5):
    if current_score < best_score:
        new_lr = current_lr * decay_rate
    return new_lr

# 模型训练
params = {
    "boosting_type": "gbdt",
    "objective": "regression",
    "metric": "custom_loss",
    "learning_rate": 0.05,
    "num_leaves": 31,
    "max_depth": -1,
    "min_data_in_leaf": 20,
    "bagging_fraction": 0.8,
    "feature_fraction": 0.8,
    "verbosity": -1,
}

train_data = lgb.Dataset(X_train, label=y_train)
val_data = lgb.Dataset(X_val, label=y_val, reference=train_data)

gbm = lgb.train(params, train_data, num_boost_round=5000, valid_sets=[val_data], early_stopping_rounds=100, feval=custom_loss, learning_rates=adaptive_learning_rate)

通过这些优化策略，我们能够显著提升模型的预测性能，特别是在处理具有复杂生物学特性的siRNA数据时。

结语

通过这三篇文章的深入探讨，我们从最初的基础特征工程到RNN模型的应用，再到本文的生物学特征的挖掘与分析，逐步提升了siRNA药效预测的准确性。我们不仅应用了传统的机器学习方法，还探索了深度学习技术和生物学先验知识的结合，这为我们提供了更全面的理解和更精确的预测能力。未来的工作中，我们将继续探索更复杂的模型架构，如Transformer，并尝试将多模态数据融合到模型中，以进一步提升预测效果。我们相信，这些探索不仅将推动核酸药物研发的发展，也为更广泛的生物医药研究提供了新的工具和思路。

如果你觉得这篇博文对你有帮助，请点赞、收藏、关注我，并且可以打赏支持我！

欢迎关注我的后续博文，我将分享更多关于人工智能、自然语言处理和计算机视觉的精彩内容。

谢谢大家的支持！