SSCRB: 使用基于序列和结构特征的注意力模型预测 circRNA-RBP 相互作用位点

原文标题:

SSCRB: Predicting circRNA-RBP Interaction Sites Using a Sequence and Structural Feature-Based Attention Model

原文链接:

SSCRB: Predicting circRNA-RBP Interaction Sites Using a Sequence and Structural Feature-Based Attention Model | IEEE Journals & Magazine | IEEE Xplore

摘要

环状RNA ( circular RNA,circRNA )与RNA结合蛋白( RNA binding proteins,RBPs )相互作用位点的预测对于调控疾病和发现新的治疗途径至关重要。由于全基因组circRNA结合事件数据的可获得性,计算模型已被广泛用于预测circRNA - RBP相互作用位点。然而,高效地获取多尺度circRNA特征以提高预测精度仍然是一个具有挑战性的问题。在本研究中,我们提出了一个预测circRNA - RBP相互作用位点的轻量级模型SSCRB。我们的模型同时提取了circRNA的序列特征和结构特征,并通过注意力机制融合了多尺度特征。此外,我们通过组合多个子模型来开发集成模型,以提高预测性能和可推广性。我们在37个circRNA数据集上对SSCRB进行了评估,并与其他最先进的方法进行了比较。SSCRB的平均AUC为97.66 %,证明了其有效性和鲁棒性。SSCRB在预测精度方面优于其他方法,同时需要的计算资源明显更少。

引言

2019年,Zhang等人提出了CRIP计算模型。该模型通过堆叠密码子对序列进行编码,并利用卷积神经网络( CNN )和循环神经网络( RNN )学习更高效的特征,显著提高了预测性能。
2020年,Jia等人开发了PASSION ,利用增量特征选择和XGBoost从6种circRNA编码方法中识别最优特征子集。它还使用混合神经网络来预测circRNA - RBP相互作用位点。
2021年,Yang等人提出了iCircRBP - DHN。该模型结合双向门控循环单元( BiGRU )和注意力机制构建深度多尺度残差网络。iCircRBP - DHN通过捕获不同程度的核苷酸依赖性,显著提高了circRNA - RBP结合位点的预测准确性。
2022年,Niu等人提出了CRBPDL 。该模型使用深度多尺度残差网络( MSRN )和BiGRU表示circRNA序列,并使用Adaboost集成的深度网络进行预测。
Yang等人在2022年提出了HCRNet。HCRNet基于深度时间卷积网络识别circRNA结合事件,并在37个circRNA数据集上进行测试,表现出令人满意的性能。

2023年,Cao等人通过引入自注意力机制增强了iCircRBP-DHN。这种修改使得模型能够捕获RNA序列更深层次的语义特征。由此得到的CircSSNN模型具有更高的预测精度。

尽管先前预测circRNA-RBP相互作用位点的方法取得了重大进展,但它们也存在一些明显的局限性。首先,现有的大多数方法仅编码circRNA的核苷酸序列,目前在开发治疗生物标志物疾病的新药方面提供的帮助有限。这种1D核苷酸序列不能捕获重要的circRNA结构信息,这对于预测circRNA-RBP相互作用位点至关重要。最近的研究试图表示和预测RNA的3D结构。然而,RNA三维结构的复杂性和多样性使得这些方法具有挑战性,从而导致显著的预测误差。第二,目前的方法没有有效利用不同特征之间的深层依赖关系。来自各个角度的特征往往直接与预测分类器相连,这妨碍了特征之间的互补性,限制了特征信息的表达能力。此外,现有的circRNA-RBP相互作用位点预测方法存在GPU内存消耗高、模型训练时间长、模型复杂等问题。因此,circRNA-RBP相互作用位点的预测还有很大的提升空间。

在本研究中,我们提出了一个称为SSCRB的轻量级模型,用于预测circRNA - RBP相互作用位点。为了提高预测性能,我们提取了同时包含circRNA序列和结构信息的多尺度特征。序列信息通过核苷酸序列编码和密码子堆叠编码获得,而结构信息则来源于使用CDPfold构建的RNA碱基配对矩阵。然后使用注意力机制来促进这些多尺度特征的交互融合,使SSCRB能够捕获依赖关系,并获得传递更深层次信息的综合特征。这些综合特征被输入到由多层感知器( MLP )和softmax函数组成的预测模块中,该模块输出circRNARBP结合位点的概率。为了提高模型的泛化性能和预测精度,我们通过组合多个SSCRB模型来构建一个大的集成模型。在37个circRNA数据集上使用5折交叉验证(五折交叉验证法)对模型的预测性能进行评估,获得了97.66 %的平均AUC,超过了几种最先进的方法。此外,效率分析表明,与其他先进方法相比,SSCRB在消耗显著较少的计算资源的同时实现了更高的预测精度。为了更直观地表示SSCRB预测circRNA结合位点的能力,我们还对预测结果进行了可视化展示。总体而言,SSCRB是一个高效、稳健的circRNA - RBP结合位点预测模型。

材料与方法

SSCRB的框架如图1所示,包括四个用于模型构建的模块:序列特征提取模块、结构特征提取、输出级联和注意力模型模块。对这些模块的详细描述介绍如下。

数据集

为了评估模型的性能并与其他模型进行比较,我们使用了37个著名的circRNA - RBP数据集( https://circinteractome.nia.nih.gov/))。使用CD - HIT对这些数据集进行预处理,去除冗余序列,共得到32216个circRNA - RBP数据。对于每个CLIP - seq读峰,我们选择相应的结合位点,取上下游各50个核苷酸,提取一个由101个核苷酸组成的circRNA片段。阳性样本从实验验证的结合位点中获得,阴性样本从未验证的circRNA片段中随机选择。为了保证数据集的均衡性,我们保持正负样本比例为1:1。

circRNA序列特征提取

密码子堆叠编码得到的矩阵与核苷酸序列编码的序列表示矩阵拼接得到最终的序列特征表示

为了全面分析序列中相邻核苷酸的不同程度,我们使用one-hot编码来表示每一组k( k = 1 , 2 , 3)相邻核苷酸。给定circRNA序列C = ( n1 , n2 , ... , nl),其中ni表示第i个核苷酸,l表示circRNA序列的长度。为了捕获完整的信息,我们首先使用84(4+4^{2}+4^{3})独热编码来表示每个circRNA。该编码过程可定义如下:

其中Xk∈Rl × 4k是circRNA序列的单核苷酸、二核苷酸和三核苷酸编码特征。Concat ( )表示级联操作。Xn∈Rl × 84表示特征编码后的序列表示。

基于JLCRB中使用的方法,我们通过结合密码子堆叠来进一步增强编码,以考虑三核苷酸成分。这涉及到使用密码子将每一组三核苷酸翻译成其对应的氨基酸,从而产生原始circRNA序列的伪氨基酸序列表示。然后使用one-hot编码方案对每个氨基酸进行编码,将长度为l的circRNA序列表示为维度为l × 21的one - hot矩阵X4。最后,我们将特征编码的序列表示Xn和X4进行拼接,得到最终的circRNA序列特征表示

其中Xs∈R l × 105为circRNA序列特征表示,Ws和bs分别表示可训练权重矩阵和偏置。

circRNA结构特征提取

为了确定circRNA的结构信息,我们通过计算circRNA内部每个碱基之间的匹配概率来生成RNA碱基配对矩阵。然后使用这个碱基配对矩阵来揭示circRNA的精确二级结构信息。对于长度为L的RNA序列,我们利用CDPfold这一简单且开源的工具来预测矩阵Mt。该矩阵有L行L列,其中第i行和第j列的元素表示RNA中第i个碱基与第j个碱基匹配的概率。具体来说,CDPfold首先根据碱基对之间的氢键数目,设置不同碱基对对不同大小( A-U : 2 , G-C : 3等。)的权重。为了综合评估每个碱基在茎上形成配对碱基的潜力,CDPfold还借鉴了局部加权线性回归的概念,并引入高斯函数作为权重来考虑其相邻碱基的配对状态,最终生成RNA碱基配对矩阵Mt。

在得到RNA碱基配对矩阵后,我们利用由卷积层和批量归一化层组成的circRNA结构特征提取方法,有效地提取了RNA中的结构特征以及更多的全局特征。CircRNA结构特征提取的过程可以表述如下:

其中Xa∈Rl是用于交互的结构特征得分,Xm表示circRNA结构特征。CNN1D表示1D卷积块,BN为批量归一化层,RL和σ分别表示ReLU激活函数和Sigmoid激活函数。

输出连接和注意力模型

如前所述,我们通过不同的特征提取方法得到circRNA序列特征Xs、circRNA结构特征得分Xa和结构特征Xm。通常,这些特征被组合并输入到全连接层进行最终分类。然而,我们的发现表明circRNA的序列和结构特征之间存在相关性,表明需要额外的特征相互作用和联系。为了解决这个问题,我们使用注意力机制来选择性地强调序列特征中最重要的特征,而淡化不太重要的特征

式中:V,K,Q由投影函数L = WT x + b ( W和b分别表示可训练的权重矩阵和偏差)生成。A代表注意力分数,C和d分别为嵌入维度和头数。Xf为自注意力机制调整后的circRNA序列特征表示

然后,我们通过矩阵元素乘积实现了circRNA结构特征和调整后的circRNA序列特征之间的交互,并通过连接交互特征和结构特征生成了两方面信息的联合表示Xc

最后,我们使用最大池化函数从circRNA特征中提取最重要的特征信息,从而得到circRNA特征的最终表示:

其中X∈Rl是circRNA特征的最终表示,mp是最大池化函数,Wc和bc分别表示可训练的权重矩阵和偏置。

预测和集成模型

将circRNA特征的最终表示X输入到由MLP和Softmax激活函数组成的预测模块中。MLP有三层神经网络,在第一层和第二层后面连接一个Dropout层,以防止过拟合。然后将第三层的输出输入到Softmax层,得到circRNA - RBP结合位点的概率值。

我们的模型是一个轻量级的模型,包含卷积层和较少的线性层,节省了计算资源。通过构建一个不增加训练资源消耗的集成模型,我们有效地提高了预测精度。我们使用K折交叉验证将数据集划分为K个副本,其中K - 1个用于训练,1个用于测试。经过K折交叉验证后,用不同的参数生成K个模型。图2说明了通过组合这些模型来构建一个大的集成模型,并将每个模型的输出结果取平均得到集成模型的输出。通过网格搜索得到最佳K值。在实际的模型训练过程中,我们采用5折交叉验证。

图2 . SSCRB集合模式。

损失函数

在本文中,我们使用二元交叉熵( BCE )作为损失函数来训练模型。BCE衡量预测值与其对应的标注值之间的差异。通过使用BCE,我们的目标是最小化这个差距,并提高模型的性能。

其中MLP表示由三层神经网络组成的多层感知器,yj为circRNA-RBP结合位点的标签值,pi为circRNA - RBP结合位点的预测值,N表示circRNA的个数。

结果

与其他方法的比较

基线模型描述如下:

HCRNet是一个基于深度时间卷积网络的circRNA-RBP结合位点识别框架。

JLCRB是一种基于多视图融合的circRNA-RBP结合位点预测方法。整合编码方法HNF,CircRNA2vec,PSTNP和DNA-BERT来编码circRNA序列。

CRBPDL使用BiGRU算法和自注意力机制来识别circRNA-RBP相互作用位点。

PASSION是一种利用混合神经网络预测circRNA-RBP结合位点的方法。

CRIP通过密码子编码circRNA,并使用混合深度神经网络预测circRNA-RBP结合位点。

讨论及结论

近年来,测序技术的快速发展产生了大量关于circRNA结合事件的数据。这导致了越来越多的使用深度学习模型来预测circRNA - RBP相互作用位点。然而,一个具有挑战性的问题仍有待解决,即如何灵活、高效地获取多尺度circRNA特征以提高预测精度。在本研究中,我们提出了一种新的circRNA-RBP相互作用位点预测模型SSCRB,该模型同时考虑了序列特征和结构特征。我们将SSCRB与目前最先进的circRNA-RBP相互作用位点预测模型在37个数据集上进行了比较。值得注意的是,与其他先进方法相比,SSCRB在消耗显著较少的计算资源的同时实现了更高的预测精度。这些结果表明SSCRB是一个高效且健壮的轻量级模型。

SSCRB的优异性能可归因于几个关键因素。SSCRB的优异性能可归因于几个关键因素。首先,SSCRB通过提取同时包含circRNA序列信息和结构信息的多尺度特征来提高模型的表征能力。这样可以对数据有更全面的了解。第二,基于注意力机制的特征交互融合方法,使得模型能够识别并利用特征内部的依赖关系。这导致提取更有意义和信息的特征。最后,SSCRB由于其轻量级的特性,可以通过组合多个模式来构建一个大的集合模式。该集成模型进一步提升了SSCRB的泛化性能和预测精度。

然而,SSCRB仍有改进的空间。首先,利用CDPfold生成circRNA的碱基配对矩阵。近年来,在表示RNA结构信息方面取得了重大进展,可能有更好的模型可用来表示circ RNA的结构特征。其次,已知RBP结合位点的数据量不足,往往导致正负样本不平衡。因此,未来收集更多的circRNA-RBP互作位点数据,扩充现有数据集,探索更适合表征circRNA结构特征的方法至关重要。这些努力将有助于进一步提升SSCRB的性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值