论文解读《使用支持向量机和PSSM谱预测蛋白质中的RNA结合位点》

一、 摘要

RNA结合蛋白(RNA-binding proteins, RBPs)在基因表达的转录后控制中起着关键作用,与转录调控一起,是调控基因在发育过程中表达模式的主要途径。因此,RNA结合位点的识别和预测是全面了解rbp控制机体发育的重要一步。结合进化信息和支持向量机(SVM),我们开发了一种改进的方法来预测蛋白质序列中的RNA结合位点或RNA相互作用残基。本研究开发的预测模型已在86条RNA结合蛋白链上进行训练和测试,并使用五重交叉验证技术进行评估。首先,开发了一个支持向量机模型,Matthew’s correlation coefficient (MCC)的最大值为0.31。当以PSSM剖面的形式对多个序列进行比对作为支持向量机的输入时,该SVM模型的性能进一步提高了mcc,从0.31提高到0.45,远优于以往方法在同一数据集上的最大mcc(0.41)。此外,SVM模型还在一个包含107条RBP链的备选数据集上开发。利用PSSM作为支持向量机的输入信息,在这个备选数据集上的训练/测试达到了最大的mcc为0.32。综上所述,在相同的数据集上,本研究开发的SVM模型的预测性能优于现有的方法。此外,还开发了一个名为“Pprint”的网络服务器,用于预测蛋白质序列中的RNA结合残基,该服务器可在http://www.imtech.res.in/ raghava/ Pprint /上免费获得。

二、介绍

rna结合蛋白(rbp)在生物体内起着至关重要的作用。了解rbp在生物发育中的功能的一个重要问题是rbp如何在体内区分它们的靶标和非靶标。换句话说,就是rbp如何识别它们的RNA靶标。rbp可以识别RNA靶标中存在的特定序列、结构或两者。如果RBP有足够的信息在计算上区分靶标和非靶标,了解RBP的RNA结合特异性可以成为识别含有相似特征的未知靶标的另一种方法。因此,rbp及其结合位点的识别是分子识别领域的主要挑战。在过去的十年中,由于正在进行的大规模测序项目,rbp的数量呈指数级增长。尽管rbp的注释取得了巨大的进展,但蛋白质中RNA相互作用残基的识别仍然是一个主要的挑战。虽然从RNA-蛋白质复合物的结构中识别蛋白质中的RNA相互作用残基并不困难,但复杂结构的实验确定是昂贵和耗时的。因此,开发从蛋白质氨基酸序列预测rna结合位点的方法对了解这些rbp的功能具有重要意义。2004年,Joeng et al.,1开发了一种基于人工神经网络(ANN)的方法,利用氨基酸序列和二级结构信息预测RNA相互作用残基,其最大mccof为0.29。Jeong和Miyano2利用从PSI-BLAST配置文件和CLUSTALW比对中提取的进化信息,将mcc提高到0.41。Wang和Brown3利用侧链pKa、疏水性指数和氨基酸分子质量开发了一种基于svm的方法,最高准确率为69.32%,灵敏度为66.28%。最近,Terribiliniet al.4开发了一种利用Naı¨ve Bayes Classifier预测RNA相互作用残基的方法,并获得了最大的mcc为0.35。在本研究中,我们进行了系统的尝试利用支持向量机和进化信息提高RNA相互作用残基的预测精度。

三、材料和方法

1、 主要数据集

主要数据集包含从RNA-蛋白复合物结构中提取的86条RNA相互作用蛋白链这些结构(在3 A˚或更高分辨率下解析)从蛋白质数据库(PDB)中获得使用PSI-BLAST6只包含序列相似度不超过70%的非冗余蛋白链。数据集中的每个蛋白质链至少有四个RNA相互作用残基。Terribiliniet al.4在同一数据集上评估朴素贝叶斯分类器。在本研究中,考虑到实验噪声,我们使用6 a˚来定义RNA相互作用残基。因此,如果蛋白质原子和搭档RNA之间的最近距离在临界值(6 a˚)内,则残基被认为是RNA相互作用的。主要数据集中的蛋白链共有20071个残基,其中4568个为rna相互作用残基

2、替代数据集

除了主要数据集,我们还使用了一个替代数据集,该数据集包括从61个RNA相互作用蛋白中获得的107个RNA相互作用链。这个非冗余的数据集,其中没有两条链的序列相似度超过25%,是从BindN服务器(http://bioinformatics.ksu.edu/bindn/)获得的,Wang和Brown3使用该数据集开发了预测RNA结合残基的方法“BindN”。在这个替代数据集中,我们也使用了3.5 a˚的临界值来定义RNA相互作用残基,类似于BindN研究人员使用的标准。在主要和替代数据集中,38条蛋白链被发现是共同的。替代数据集中的蛋白质链共有22051个残基,其中2555个是rna相互作用的残基。

3、五倍交叉验证

我们使用五重交叉验证技术来评估我们尝试的所有方法的性能。在这种技术中,蛋白质被随机分成五组,其中四组用于训练,其余的第五组用于测试。这个过程重复五次,每一组只用于一次测试。最后的表现是将所有五组的表现取平均。

4、图案或窗口尺寸

对于每个序列,我们创建不同大小(或窗口大小)的重叠模式(片段)11、13、15等等。如果模式的中心残基是RNA相互作用残基后,我们将其分类为阳性或RNA相互作用模式,否则称为非相互作用模式或阴性模式。为了创建一个对应于蛋白链末端残基的模式,我们在蛋白质的两端添加(L-1)/2虚拟残基“X”(其中是模式的长度)。这意味着对于window size 11,我们在n端前面加了5“X”,在羧基端后面加了5“X”,从长度为L序列中创建L的模式。蛋白质序列中的每个残基都有相应的模式。这与Singh和Raghava预测MHC II类结合肽的方法相似

5、支持向量机

在本研究中,SVM技术是利用SVM_light包实现的。这个包非常强大,用户友好,可以调整参数和内核函数,如多项式,RBF,线性,和Sigmoid。在过去,支持向量机技术也被成功地用于开发广泛的生物信息学工具

6、演变的信息

这是通过对NCBI的非冗余(nr)蛋白序列数据库进行PSI-BLAST6搜索时生成的位置特异性评分矩阵(PSSM)获得的。在截断值0.001处进行三次迭代,得到PSSM矩阵,以确定下一次迭代是否包含序列。由此生成的PSSM包含了每种氨基酸残基在每个位置出现的概率以及插入/缺失。因此,PSSM被认为是在给定位置上的剩余守恒的度量。这意味着每个氨基酸的演变的信息被封装在一个21维的向量中,其中含有n残基的蛋白质的PSSM矩阵的大小为21 * N。
PSSM矩阵的定义:
可以反映出每个位置上不同碱基出现的频率,矩阵每一列表示相应位置上碱基出现的频率。
构造PSSM的第一步:通过计算每个位置上每个碱基出现的次数来创建一个基本频率矩阵(PFM)
第二步:标准化,用每个位置的原核苷酸计数除以序列数。构建位置频率矩阵
给定一个长度为l的序列集合X (N),
第三步:构建位置比重矩阵

7、性能测量

为了评估本研究中开发的各种模块的性能,我们计算了以下阈值依赖参数:RNA相互作用残基的敏感性(Sn)或覆盖率;特异性(Sp)或非相互作用残留物的百分比覆盖率;总体精度(Ac);RNA相互作用残基(PPV)正确预测的百分比概率,也称为相互作用残基的准确性和马修相关系数(MCC),使用以下公式:

结果

1、成分分析

我们计算了相互作用和非相互作用残基的组成,发现Gly、His、Lys、Asn、Gln和Arg在RNA相互作用残基中比在非相互作用残基中更丰富(图1)。

在这里插入图片描述
图表示用于开发Pprint的86条蛋白链中相互作用和非相互作用残基的百分比组成(主要数据集)。

2、使用氨基酸序列的SVM模型

固定长度的模式是由RNA相互作用链产生的,其中一个模式被分配为正,如果中心残基被发现是相互作用残基,否则是负的模式。将这些序列模式转换为二进制模式,其中长度n的模式由维度为n * 21的向量表示。每个氨基酸是由一个向量表示21(例如e.g.Ala就可以表示成(1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)含有20种氨基酸和一个伪氨基酸“X“。如表I所示,基于支持向量机的模型最大mcc值为0.31,准确率为76.05%。
在这里插入图片描述

3、基于进化信息的SVM模型

在过去,一些研究表明,从多个序列比对中获得的进化信息比单个序列提供了更全面的蛋白质信息。在本研究中,从PSI-BLAST谱图生成的PSSM中获得的进化信息也被用于预测RNA相互作用残基。从表II可以看出,当使用PSSM作为输入而不是单一序列时,性能显著提高。mcc最大值为0.45,准确率为81.16%
在这里插入图片描述
mcc=0.32,准确率为75.43%(灵敏度为70.09%;特异性,75.54%)。这表明,在相同的数据集上,利用进化信息开发的模型比单纯基于单一序列信息的方法性能更好,也比以往的方法性能更好。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值