结合高速ELM学习和深度卷积神经网络特征编码来预测蛋白质-RNA相互作用

1. 介绍

    蛋白质和RNA相互作用的识别是一个重要的生物信息学问题。目前,RNA与蛋白质相互作用的鉴定方法大致可分为两类:基于实验的鉴定方法和基于计算的鉴定方法。基于实验的方法往往受到自身局限性的制约,不仅耗时费力,而且增加了实验结果的不稳定性。因此,基于计算的RNA与蛋白质相互作用预测方法越来越受到研究者的关注。
    本研究提出了一种基于序列的方法,利用卷积神经网络(CNN)结合极端学习机器(ELM)分类器来预测RNA -蛋白质的相互作用。首先,将RNA和蛋白质序列转换成易于计算机处理的数字描述符。在这里,为了携带更多的生物信息,考虑使用包含生物进化信息的特定位置得分矩阵(PSSM)来转换序列数据。然后,使用CNN从这些数值描述符中提取隐藏的高级抽象特征。最后将这些特征输入ELM分类器进行准确分类。该方法的流程图如下图所示。
在这里插入图片描述

2. 材料和方法

A. 基准数据集

    为了评估该方法的性能,利用四个基准数据集中验证了该方法,包括RPI1807、RPI2241、RPI369和NPInter v2.0数据集。
    表1显示了上述数据集的详细信息。
在这里插入图片描述

B. 序列的数字表示

    为了便于计算机处理,需要将RNA和蛋白质的字母序列转换成数字矩阵。由于RNA和蛋白序列的构造不同,使用保留序列转换(OPT)和位置特异性评分矩阵(PSSM)方法对它们进行数值转换。
    OPT算法可以充分利用相邻核苷酸位置的信息,将每个RNA序列转换成稀疏矩阵。考虑一个RNA序列,p=’P1P2…PN其中Pi是A,C,U,G中的一个,i=1,2,…,N,N表示RNA序列的长度。在这里,考虑到三个字母组成一个三元组,并使用它来扫描RNA序列,以建立稀疏矩阵。具体来说,依次扫描三个相邻的字母,形成RNA序列如下:(1,2,3)(2,3,4),…,(N-2,N-1,N)。这样我们就得到了从RNA序列转换而来的64×(N-2)邻接矩阵R。
在这里插入图片描述
这里,T(i)=[AAA,AAC,…,UUU]。因此,利用最优算法将RNA序列转化为数值稀疏矩阵。
    对于蛋白序列,使用包含生物进化信息的PSSM算法进行数值变换。PSSM算法在远缘蛋白的检测,蛋白二级结构预测、蛋白结合位点预测和无序区预测方面取得了很大的成功。PSSM的结构是一个N×20的矩阵,其中N表示蛋白质序列的长度,20表示天然氨基酸的数量。假设Mat={τi,j,i=1…N, j=1…20},PSSM矩阵能够被如下表示:
在这里插入图片描述
    式中,在PSSM的i行中,τi,j表示该残基在蛋白质进化过程中突变为20个天然氨基酸的j型的概率。在实验中,利用特定位置的迭代BLAST (PSI-BLAST)工具将蛋白质序列转换为数值矩阵。为了得到最好的结果,将PSI-BLAST工具设置为针对SwissProt的数据库,迭代次数为3次,e值为0.001。

C. 卷积神经网络

由于文章在服务器上,全文内容详见:http://bbit.vip/service/main.php?version=1&type=article&id=16

  • 1
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值