论文解读：《通过结合局部和全局深度卷积神经网络预测 RNA-蛋白质结合位点和基序》

最新推荐文章于 2024-10-23 17:12:36 发布

风灬陌

最新推荐文章于 2024-10-23 17:12:36 发布

阅读量1k

点赞数 3

分类专栏：生物信息学序列解析深度学习文章标签：深度学习生物信息学算法 cnn 神经网络

原文链接：https://academic.oup.com/bioinformatics/article/34/20/3427/4990826

版权

生物信息学同时被 3 个专栏收录

53 篇文章

订阅专栏

深度学习

32 篇文章

订阅专栏

序列解析

2 篇文章

订阅专栏

论文解读：《Predicting RNA–protein binding sites and motifs through combining local and global deep convolutional neural networks》

1.文章概述
2.背景
3.数据
- 3.1 RBP-24
- 3.2 RBP-47
4.方法
5.结果
6.总结

文章地址：https://academic.oup.com/bioinformatics/article/34/20/3427/4990826
DOI：https://doi.org/10.1093/bioinformatics/bty364
期刊：Bioinformatics
2022年影响因子/JCR分区：6.931/Q2
发布时间：2018年5月2日
Github： https://github.com/xypan1232/iDeepE
补充文件：https://academic.oup.com/bioinformatics/article/34/20/3427/4990826#supplementary-data

1.文章概述

RNA 结合蛋白 (RNA-binding proteins，RBP) 占真核蛋白质组的 5-10%，并在许多生物过程中发挥关键作用，例如基因调控。 RBP 结合位点的实验检测仍然是耗时且成本高的。相反，使用从现有注释知识中学习的模式对 RBP 结合位点进行计算预测是一种快速方法。从生物学的角度来看，源自局部序列的局部结构上下文将被特定的 RBP 识别。然而，在使用深度学习的计算建模中，只使用了整个 RNA 序列的全局表示。到目前为止，在深度模型构建过程中忽略了局部序列信息。
在这项研究中，作者提出了一种计算方法 iDeepE，通过结合全局和局部卷积神经网络 (CNN) 从 RNA 序列预测 RNA-蛋白质结合位点。对于全局 CNN，作者将 RNA 序列填充到相同的长度。对于局部 CNN，将一个 RNA 序列拆分为多个重叠的固定长度子序列，其中每个子序列是整个序列的一个信号通道。接下来，分别为多个子序列和填充序列训练深度 CNN 以学习高级特征。最后，结合局部和全局 CNN 的输出以改进预测。 iDeepE 在两个源自 CLIP-seq 的大规模数据集上展示了优于最先进方法的性能。作者还发现，在使用 GPU 时，本地 CNN 的运行速度比全局 CNN 快 1.8 倍，性能相当。最后结果表明 iDeepE 已经捕获了经过实验验证的结合基序。

2.背景

RNA 结合蛋白 (RNA-binding proteins，RBP) 高度参与许多生物过程，例如它们占据真核蛋白质组的 5-10%。 RBP 的某些突变可能会导致疾病。例如，RBP FUS 和 TDP-43 的突变可导致肌萎缩侧索硬化症。因此，解码 RBP 结合位点的概述可以更深入地了解许多生物机制。
随着高通量技术的发展，，生成了大量经过实验验证的 RBP 结合位点。然而，它们既耗时又昂贵。幸运的是，这些实验数据可以作为机器学习模型的训练数据，以学习 RBP 的结合模式。已经提出了许多计算方法来预测 RBP 结合位点。
基于深度学习的方法在预测蛋白质结合 RNA/DNA 方面引起了巨大关注，特别是基于卷积神经网络（CNN）的方法。这些方法不仅在预测精度方面优于其他现有方法，而且可以轻松地直接从CNN的学习参数中提取结合基序。
为了整合局部序列信息，作者首先将序列分割为多个重叠的固定长度子序列，每个子序列被视为一个通道，就像图像的RGB通道一样。另一方面，整个 RNA 序列包含隐藏信息的概述，而不会破坏 RBP 相互作用的一些关键信息。
在这项研究中，作者提出了一种新的计算方法 iDeepE 来预测 RBP 结合位点和基序（图1）。它分别针对多个局部子序列和整个序列训练局部多通道 CNN 和全局 CNN。考虑到 CNN 的集合比单个 CNN 更稳健、更准确，作者将局部和全局 CNN 集成作为最终模型以提高性能。 iDeepE还支持GPU加速。此外，作者基于 CNN 设计了不同的网络架构，例如CNN、CNN-LSTM 和 Deep Residual Net (ResNet) ，并将它们与其他预测 RNA 上 RBP 结合位点的最新方法进行比较。此外，通过根据实验验证的结合基序评估从 iDeepE 中提取的结合序列基序，证明了 iDeepE 可以捕获结合基序。
在这里插入图片描述

3.数据

3.1 RBP-24

RBP-24数据RBP结合位点的训练和测试数据集是从GraphProt网站下载的。该数据集也被 deepnet-rbp 使用。它涵盖了 21 个 RBP 的 24 个实验。对于每个实验，阳性位点是锚定在 doRiNA 中处理的 CLIP-seq 的峰中心的子序列，阴性位点是没有支持证据表明是结合位点的区域。对于独立测试集，大多数 RBP 有 500 个正例和 500 个负例，这是原始 GraphProt 的测试集。

3.2 RBP-47

RBP-47数据从 RNAcommender收集，其中包括来自 CLIP-seq 的 67 个 RBP 的总共 502178 个结合位点，但各个 RBP 的结合位点数量不同。作者只保留那些正 UTR 序列数量大于 2000 的 RBP。这是因为基于深度学习的方法无法在太小的训练集上收敛。最终我们得到剩余的 RBP-47 用于以下实验。为了训练每个 RBP 的模型，还通过随机选择不与该 RBP 相互作用的 UTR 来生成相同数量的负序列。此外，作者还创建了一个非冗余的 RBP-47 数据集，其中使用 CD-HIT 工具中的 cd-hit-est 排除测试集中与训练集中任何序列相似性大于 80% 的 RNA 序列。 80%是cd-hit-est的最小截止值，为了降低截止值，使用cd-hit来减少序列冗余。
综上所述，RBP-24是子序列级数据集，RBP-47是UTR级数据集。对于这两个数据集，正集均来自 CLIP-seq，但负集是通过不同的策略生成的。 RBP-24 中每个 RBP 的负集是通过将正结合位点移动到同一基因中的随机区域而产生的。然而，RBP-47 中每个 RBP 的负集由不与该 RBP 相互作用的 UTR 组成。
作者使用不同的策略来构建RBP24和RBP47的负序列，原因如下：
（i）想要与GraphProt和RNAcommender的原始方法进行比对和比较，这两种方法使用不同的方式构建负序列。
(ii) RBP-24的负序列是来自正序列的同一基因的其他非结合区域的子序列，而RBP-47的负序列是来自不同基因的UTR。如 iONMF 所示，区域类型对于 RBP 结合位点也具有重要的区分能力。
因此，不能简单地使用同一基因的其他区域（例如外显子、内含子等）作为RBP-47的负序列。作者还使用 CDHIT 排除测试集中那些与训练集中任何序列相似度超过 80% 的冗余序列。

4.方法

4.1 序列编码

CNN 模型要求输入具有固定长度，而不同的 RNA 序列其长度差异很大。为了解决这个问题，作者对输入的RNA序列进行以下预处理：

对于全局CNN模块，根据训练集中预定义的最长序列将所有序列填充到最大长度。
对于局部CNN，首先将长度为L的RNA序列分成多个窗口大小为W的子序列，每个子序列被视为一个通道。因此，整个序列中具有重叠移位S的子序列的数量为(L-W)/(W-S)。这里我们还根据训练序列中的最大长度计算了最大通道数C。如果一个序列的通道数小于 C，则它会通过源自所有核苷酸 N 到 C 的序列的通道进行扩展。

经过预处理后，序列被转换为 one-hot 编码矩阵。给定一个 RNA 序列，具有 n 个核苷酸和卷积滤波器内核大小为 m 的基序检测器，该序列的 one-hot 编码矩阵 M 为：
在这里插入图片描述
其中i是核苷酸的索引，j是矩阵中A、C、G、U对应的索引。对于序列开头和结尾处的填充核苷酸，假设 4 个核苷酸均匀分布。因此，使用 [0.25, 0.25, 0.25, 0.25] 作为填充核苷酸，并在 one-hot 矩阵中使用“N”。
RBP-24 和 RBP-47 序列的最大长度分别为： 501 和 2695。

4.2 卷积神经网络、长短期记忆网络和残差网络

卷积神经网络：https://www.zhihu.com/tardis/zm/art/47184529?source_id=1005
长短期记忆网络：https://zhuanlan.zhihu.com/p/363264764
残差网络：https://zhuanlan.zhihu.com/p/42706477

4.3 识别结合序列的motif

作者研究了 iDeepE 中集成的全局 CNN 的卷积滤波器。这些卷积滤波器的学习参数在 DeepBind 和 Basset 中使用相同的策略转换为位置权重矩阵 (PWM)。
对于序列集合中的每个序列s和宽度为k的过滤器f，如果位置 i 处的滤波器 f 的激活大于该滤波器在这组序列上的最大激活的 0.5则被选择。这些选定的 k-mer 序列使用 WebLogo进行比对以获得序列motif。
为了验证检测到的序列motif，作者使用 TOMTOM算法将它们与实验发现的来自 CISBP-RNA的基序进行比对，P 值 <0.05。此外，还使用 MEME 套件中的 AME评估motif富集分数。它通过根据输入序列和相应的改组序列扫描预测的motif来估计富集分数。
RBP-24 数据集中单个 RBP 的所有检测到的主题都可以在GitHub中的motif文件中找到，它提供了学习的过滤器热图、WebLogo motif、富集分数和 TOMTOM 的输出。此外，单个 RBP 的所有motif的所有富集分析也在同一位点给出。作者还分别使用 MEME 中的 FIMO 计算结合位点和非结合位点的基序频率。

5.结果

5.1 iDeepE在RBP-24上的性能

在这里插入图片描述

5.2 在RBP-24上比较局部CNN与全局CNN

在这里插入图片描述

5.3 iDeepE 识别的结合motif

在这里插入图片描述

5.4 iDeepE 在 UTR 级数据集 RBP-47 上的性能

在 47 个 RBP 中，有 36 个 RBP 由 RNAcommender 和 iDeepE 进行评估，AUC 如图 5A所示。 iDeepE、iDeep-G、iDeep-L、RNAcommender 和 Pse-SVM 在 36 个 RBP 中的平均 AUC 分别为 0.81、0.79、0.76、0.79 和 0.77。结果表明，融合局部和全局 CNN 可以产生更好的性能。
如图 5B 所示，RBP-47 中的 RBP 性能比 RBP-24 差。这是因为：（i）RBP-47数据集中每个RBP的训练样本数量少于RBP-24（补充表S5）。 (ii) RBP-47中的负样本是由当前AURA 2数据库（2015年8月5日）中尚未验证的UTR生成的（Dassi et al, 2014），这可能存在一些假阴性。
在这里插入图片描述

5.5 将正序列改组为负样本会产生高估的性能

使用来自 RBP-24 的 12 个共享 RBP 的相同测试集来评估两个经过训练的 iDeepE 模型。结果如图 5C 和 D 所示。iDeepE-1 在 12 个 RBP 中产生的平均 AUC 为 0.64，远低于 RBP-24 原始训练集的 AUC。原因是 RBP-24 中的负序列（将正位点移动到同一基因内的随机区域）与 RBP-47 中的正 UTR 序列部分重叠。

6.总结

在本研究中，作者提出了一种基于深度学习的方法 iDeepE，通过融合局部多通道 CNN 和全局 CNN，仅从序列中预测 RBP 结合位点。得到以下结论：
（i）iDeepE 的性能优于其八个变体和其他四种最先进的方法。
(ii) 在使用 GPU 的性能相当的情况下，本地 CNN 的运行速度比全局 CNN 快 1.8 倍。使用 CPU 时，可以节省更多时间，尤其是对于长序列。此外，本地 CNN 的内存需求较低。
(iii) 将正序列改组为负样本会产生过于乐观的性能，最好通过将正结合位点移动到同一基因内的随机区域来构建负样本。
(iv) 与其他最先进的方法相比，iDeepE 可以轻松捕获许多经过实验验证的高置信度结合基序。