论文解读:《通过结合局部和全局深度卷积神经网络预测 RNA-蛋白质结合位点和基序》

文章地址:https://academic.oup.com/bioinformatics/article/34/20/3427/4990826
DOI:https://doi.org/10.1093/bioinformatics/bty364
期刊:Bioinformatics
2022年影响因子/JCR分区:6.931/Q2
发布时间:2018年5月2日
Github: https://github.com/xypan1232/iDeepE
补充文件:https://academic.oup.com/bioinformatics/article/34/20/3427/4990826#supplementary-data

1.文章概述

RNA 结合蛋白 (RNA-binding proteins,RBP) 占真核蛋白质组的 5-10%,并在许多生物过程中发挥关键作用,例如基因调控。 RBP 结合位点的实验检测仍然是耗时且成本高的。相反,使用从现有注释知识中学习的模式对 RBP 结合位点进行计算预测是一种快速方法。从生物学的角度来看,源自局部序列的局部结构上下文将被特定的 RBP 识别。然而,在使用深度学习的计算建模中,只使用了整个 RNA 序列的全局表示。到目前为止,在深度模型构建过程中忽略了局部序列信息。
在这项研究中,作者提出了一种计算方法 iDeepE,通过结合全局和局部卷积神经网络 (CNN) 从 RNA 序列预测 RNA-蛋白质结合位点。对于全局 CNN,作者将 RNA 序列填充到相同的长度。对于局部 CNN,将一个 RNA 序列拆分为多个重叠的固定长度子序列,其中每个子序列是整个序列的一个信号通道。接下来,分别为多个子序列和填充序列训练深度 CNN 以学习高级特征。最后,结合局部和全局 CNN 的输出以改进预测。 iDeepE 在两个源自 CLIP-seq 的大规模数据集上展示了优于最先进方法的性能。作者还发现,在使用 GPU 时,本地 CNN 的运行速度比全局 CNN 快 1.8 倍,性能相当。最后结果表明 iDeepE 已经捕获了经过实验验证的结合基序。

2.背景

RNA 结合蛋白 (RNA-binding proteins,RBP) 高度参与许多生物过程,例如它们占据真核蛋白质组的 5-10%。 RBP 的某些突变可能会导致疾病。例如,RBP FUS 和 TDP-43 的突变可导致肌萎缩侧索硬化症。因此,解码 RBP 结合位点的概述可以更深入地了解许多生物机制。
随着高通量技术的发展,,生成了大量经过实验验证的 RBP 结合位点。然而,它们既耗时又昂贵。幸运的是,这些实验数据可以作为机器学习模型的训练数据,以学习 RBP 的结合模式。已经提出了许多计算方法来预测 RBP 结合位点。
基于深度学习的方法在预测蛋白质结合 RNA/DNA 方面引起了巨大关注,特别是基于卷积神经网络(CNN)的方法。这些方法不仅在预测精度方面优于其他现有方法,而且可以轻松地直接从CNN的学习参数中提取结合基序。
为了整合局部序列信息,作者首先将序列分割为多个重叠的固定长度子序列,每个子序列被视为一个通道,就像图像的RGB通道一样。另一方面,整个 RNA 序列包含隐藏信息的概述,而不会破坏 RBP 相互作用的一些关键信息。
在这项研究中,作者提出了一种新的计算方法 iDeepE 来预测 RBP 结合位点和基序(图1)。它分别针对多个局部子序列和整个序列训练局部多通道 CNN 和全局 CNN。考虑到 CNN 的集合比单个 CNN 更稳健、更准确,作者将局部和全局 CNN 集成作为最终模型以提高性能。 iDeepE还支持GPU加速。此外,作者基于 CNN 设计了不同的网络架构,例如CNN、CNN-LSTM 和 Deep Residual Net (ResNet) ,并将它们与其他预测 RNA 上 RBP 结合位点的最新方法进行比较。此外,通过根据实验验证的结合基序评估从 iDeepE 中提取的结合序列基序,证明了 iDeepE 可以捕获结合基序。
在这里插入图片描述

3.数据

3.1 RBP-24

RBP-24数据RBP结合位点的训练和测试数据集是从GraphProt网站下载的。该数据集也被 deepnet-rbp 使用。它涵盖了 21 个 RBP 的 24 个实验。对于每个实验,阳性位点是锚定在 doRiNA 中处理的 CLIP-seq 的峰中心的子序列,阴性位点是没有支持证据表明是结合位点的区域。对于独立测试集,大多数 RBP 有 500 个正例和 500 个负例,这是原始 GraphProt 的测试集。

3.2 RBP-47

RBP-47数据从 RNAcommender收集,其中包括来自 CLIP-seq 的 67 个 RBP 的总共 502178 个结合位点,但各个 RBP 的结合位点数量不同。作者只保留那些正 UTR 序列数量大于 2000 的 RBP。这是因为基于深度学习的方法无法在太小的训练集上收敛。最终我们得到剩余的 RBP-47 用于以下实验。为了训练每个 RBP 的模型,还通过随机选择不与该 RBP 相互作用的 UTR 来生成相同数量的负序列。此外,作者还创建了一个非冗余的 RBP-47 数据集,其中使用 CD-HIT 工具中的 cd-hit-est 排除测试集中与训练集中任何序列相似性大于 80% 的 RNA 序列。 80%是cd-hit-est的最小截止值,为了降低截止值,使用cd-hit来减少序列冗余。
综上所述,RBP-24是子序列级数据集,RBP-47是UTR级数据集。对于这两个数据集,正集均来自 CLIP-seq,但负集是通过不同的策略生成的。 RBP-24 中每个 RBP 的负集是通过将正结合位点移动到同一基因中的随机区域而产生的。然而,RBP-47 中每个 RBP 的负集由不与该 RBP 相互作用的 UTR 组成。
作者使用不同的策略来构建RBP24和RBP47的负序列,原因如下:
(i)想要与GraphProt和RNAcommender的原始方法进行比对和比较,这两种方法使用不同的方式构建负序列。
(ii) RBP-24的负序列是来自正序列的同一基因的其他非结合区域的子序列,而RBP-47的负序列是来自不同基因的UTR。如 iONMF 所示,区域类型对于 RBP 结合位点也具有重要的区分能力。
因此,不能简单地使用同一基因的其他区域(例如外显子、内含子等)作为RBP-47的负序列。作者还使用 CDHIT 排除测试集中那些与训练集中任何序列相似度超过 80% 的冗余序列。

4.方法

4.1 序列编码

CNN 模型要求输入具有固定长度,而不同的 RNA 序列其长度差异很大。为了解决这个问题,作者对输入的RNA序列进行以下预处理:

  1. 对于全局CNN模块,根据训练集中预定义的最长序列将所有序列填充到最大长度。
  2. 对于局部CNN,首先将长度为L的RNA序列分成多个窗口大小为W的子序列,每个子序列被视为一个通道。因此,整个序列中具有重叠移位S的子序列的数量为(L-W)/(W-S)。这里我们还根据训练序列中的最大长度计算了最大通道数C。如果一个序列的通道数小于 C,则它会通过源自所有核苷酸 N 到 C 的序列的通道进行扩展。

经过预处理后,序列被转换为 one-hot 编码矩阵。给定一个 RNA 序列,具有 n 个核苷酸和卷积滤波器内核大小为 m 的基序检测器,该序列的 one-hot 编码矩阵 M 为:
在这里插入图片描述
其中i是核苷酸的索引,j是矩阵中A、C、G、U对应的索引。对于序列开头和结尾处的填充核苷酸,假设 4 个核苷酸均匀分布。因此,使用 [0.25, 0.25, 0.25, 0.25] 作为填充核苷酸,并在 one-hot 矩阵中使用“N”。
RBP-24 和 RBP-47 序列的最大长度分别为: 501 和 2695。

4.2 卷积神经网络、长短期记忆网络和残差网络

卷积神经网络:https://www.zhihu.com/tardis/zm/art/47184529?source_id=1005
长短期记忆网络:https://zhuanlan.zhihu.com/p/363264764
残差网络:https://zhuanlan.zhihu.com/p/42706477

4.3 识别结合序列的motif

作者研究了 iDeepE 中集成的全局 CNN 的卷积滤波器。这些卷积滤波器的学习参数在 DeepBind 和 Basset 中使用相同的策略转换为位置权重矩阵 (PWM)。
对于序列集合中的每个序列s和宽度为k的过滤器f,如果位置 i 处的滤波器 f 的激活大于该滤波器在这组序列上的最大激活的 0.5则被选择。这些选定的 k-mer 序列使用 WebLogo进行比对以获得序列motif。
为了验证检测到的序列motif,作者使用 TOMTOM算法将它们与实验发现的来自 CISBP-RNA的基序进行比对,P 值 <0.05。此外,还使用 MEME 套件中的 AME评估motif富集分数。它通过根据输入序列和相应的改组序列扫描预测的motif来估计富集分数。
RBP-24 数据集中单个 RBP 的所有检测到的主题都可以在GitHub中的motif文件中找到,它提供了学习的过滤器热图、WebLogo motif、富集分数和 TOMTOM 的输出。此外,单个 RBP 的所有motif的所有富集分析也在同一位点给出。作者还分别使用 MEME 中的 FIMO 计算结合位点和非结合位点的基序频率。

5.结果

5.1 iDeepE在RBP-24上的性能

在这里插入图片描述

5.2 在RBP-24上比较局部CNN与全局CNN

在这里插入图片描述
在这里插入图片描述

5.3 iDeepE 识别的结合motif

在这里插入图片描述
在这里插入图片描述

5.4 iDeepE 在 UTR 级数据集 RBP-47 上的性能

在 47 个 RBP 中,有 36 个 RBP 由 RNAcommender 和 iDeepE 进行评估,AUC 如图 5A所示。 iDeepE、iDeep-G、iDeep-L、RNAcommender 和 Pse-SVM 在 36 个 RBP 中的平均 AUC 分别为 0.81、0.79、0.76、0.79 和 0.77。结果表明,融合局部和全局 CNN 可以产生更好的性能。
如图 5B 所示,RBP-47 中的 RBP 性能比 RBP-24 差。这是因为:(i)RBP-47数据集中每个RBP的训练样本数量少于RBP-24(补充表S5)。 (ii) RBP-47中的负样本是由当前AURA 2数据库(2015年8月5日)中尚未验证的UTR生成的(Dassi et al, 2014),这可能存在一些假阴性。
在这里插入图片描述

5.5 将正序列改组为负样本会产生高估的性能

使用来自 RBP-24 的 12 个共享 RBP 的相同测试集来评估两个经过训练的 iDeepE 模型。结果如图 5C 和 D 所示。iDeepE-1 在 12 个 RBP 中产生的平均 AUC 为 0.64,远低于 RBP-24 原始训练集的 AUC。原因是 RBP-24 中的负序列(将正位点移动到同一基因内的随机区域)与 RBP-47 中的正 UTR 序列部分重叠。

6.总结

在本研究中,作者提出了一种基于深度学习的方法 iDeepE,通过融合局部多通道 CNN 和全局 CNN,仅从序列中预测 RBP 结合位点。得到以下结论:
(i)iDeepE 的性能优于其八个变体和其他四种最先进的方法。
(ii) 在使用 GPU 的性能相当的情况下,本地 CNN 的运行速度比全局 CNN 快 1.8 倍。使用 CPU 时,可以节省更多时间,尤其是对于长序列。此外,本地 CNN 的内存需求较低。
(iii) 将正序列改组为负样本会产生过于乐观的性能,最好通过将正结合位点移动到同一基因内的随机区域来构建负样本。
(iv) 与其他最先进的方法相比,iDeepE 可以轻松捕获许多经过实验验证的高置信度结合基序。

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值