improving protein disorder prediction by deep bidirectional lstm rnn

动机:捕获蛋白质的结构序列相邻序列之间的长距离相互作用是生物信息学中长期存在的挑战性问题。近来,长时间记忆(LSTM)网络通过记录长时间事件中有用的过去信息,显着提高了语音和图像分类问题的准确性。在这里,我们在蛋白质内在障碍预测问题中实施了深层双向LSTM复发神经网络。

结果:新方法,命名为SPOT-Disorder已经稳步改进了使用传统的基于窗口的神经网络(SPINE-D)以及类似方法在短时间和长期无序区域进行单独训练的所有数据集。对四个其他数据集的独立测试,包括来自MobiDB的结构预测(CASP)技术和> 10 000注释蛋白质的关键评估数据集,确定了SPOT-Disorder作为无序预测的最佳方法之一。此外,初步研究表明,该方法在预测无序区域中的功能位点时更准确。这些结果强调了将LSTM与深层双向循环神经网络结合在一起,捕获用于生物信息学应用的非局部长距离相互作用。


introduction

(1)IDPs介绍,本质无序蛋白,已经被用于很多人类疾病,因此确定IDPs非常重要

(2)前人工作,实验方法和理论方法。

(3)机器学习在这方面工作的研究。为了克服测序和无序分解蛋白质之间日益增长的差距,已经建立了许多计算方法,以在实验方法的一部分时间和成本上区分本征无序区域与结构域。

(4)深度学习在这方面的研究。在长时间依赖方面的缺陷,由于残留物相互作用由结构性邻居主导,因此如何解释它们是改进基于序列的蛋白质结构和功能特性预测的关键。

(5)LSTM,一系列时间分辨事件之间的长距离依赖性可以通过执行恒定的误差流更好地捕获,从而可以记住有用的远距离交互。在这个长短时间内存(LSTM)网络中,隐藏层由包含一个或多个LSTM单元的存储块组成。 每个LSTM单元格有权决定是否忘记输入或输出常量错误轮播(CEC),CEC在整个顺序事件中通过每个LSTM单元,在向前或向后的方向充当有效连接整个序列的存储器主干.基于LSTM的神经网络已成功应用于语音和图像相关问题,其中长期记忆是准确解释和预测的关键.

(6)在本文中,我们希望通过采用深层双向LSTM细胞来捕获对于确定蛋白质是否会折叠(结构化的)或不会折叠(本质上无序)到独特三维结构中的非局部相互作用。

机器学习方法

(1)神经网络

介绍使用的网络情况,所提出的方法包括三层隐层BRNN(Schuster和Paliwal,1997),利用在第一层中具有整流线性单元(ReLU)激活功能的反复前馈层,继而由LSTM 第二层和第三层中的单元层。在这种架构中,复发层由每个方向上的200个节点和偏置节点组成,LSTM层在每个方向上包含一个单元的200个单节点存储块。 内存块(200个节点)的大小被选为证明是内存使用和培训中性能准确性之间的最佳折中。 我们训练了另一个网络,每层增加了1000个节点,发现它没有改善我们的方法的性能。

介绍训练情况

介绍其他参数,学习率在初始训练中得到确定,其中大于0.001的学习率并不能使网络趋同。 我们采用步进式学习率衰减技术,将学习率降低1%,每个时期(Senior等,2013)。 也就是说,学习率初始化为0.001,然后在50个时期内系统退火到6*10^(-4)个。 这样就可以让模型通过培训学习更细微的细节。 最后,通过使用softmax函数将该网络的两个输出压入概率分布

(2)输入特性

类似于我们以前的方法(Zhang et al。,2012),无序预测的输入特征包括其多肽链位置上每个氨基酸的进化,预测的结构性质和物理化学性质。通过使用针对每个蛋白质的NCBI的非冗余(NR)序列数据库的PSI-BLAST算法的三次迭代产生的位置特异性评分矩阵(PSSM)来建立进化内容。
香农熵也被计算为代表每个残差概率的信息内容(Shannon,1948)。 整个蛋白质的平均香农熵也被用作整个蛋白质的一般保守的输入特征。 这导致了用于预测的总共22个进化特征。因此,使用这些特征导致每个氨基酸的46长度特征向量。 基于训练数据的最小值和最大值,这些参数在通过模型之前在[0,1]的范围内进行了缩放。

(3)数据集

(4)模型评估

本文通过分析二进制标签和原始预测值来评估绩效。 通过使用softmax函数在网络的输出端获得原始预测概率。 通过将这些概率与预先计算的阈值T进行比较来生成离散标签。对于蛋白质障碍预测,我们假设无序标签表示阳性样品和顺序标签以表示阴性样品。

(5)模型比较

各种方法

结果

  各种方法的结果比较

讨论

        其处理不同长度的无序区域中的无序残基的能力。一些以前的方法依赖于单一方法或两种不同方法(例如IUPRED和PONDR中的短和长版本)的短或长无序区域的单独训练。其他方法,如DISpro(Cheng et al。,2005)和Predisorder对无序区域进行了培训,而不分离长和短的无序区域。SPOT无序证实,有可能在短期和长期无序地区提供最佳预测,而无需具体的培训。 有趣的是,根据最大的测试集(图3),包括本研究在内的大多数方法对(30,45)个氨基酸长的无序区域具有最佳性能。对于超过180个残留的长期无序区域,性能下降很快,表明非常长的无序区域的预测仍然是一个挑战。

虽然这项研究的主要目标是突出长期记忆对于进一步改善目前的疾病预测因子的重要性,但有兴趣的是检查其识别无序蛋白质潜在功能区域的能力。早期研究表明,无序概率的下降与诱导性折叠有关。


这些成功可归因于LSTMs识别非局部相互作用的能力,因为使用传统神经网络似乎已经达到了对局部相互作用的限制。 所有测试数据集的稳步进一步改善表明,LSTMs在其他生物信息学领域的非局部相互作用很重要。


在这项研究中,为了大大提高训练网络的速度,我们使用图形处理单元(GPU)对这个网络进行了培训,用于加速训练。 训练神经网络中使用GPU已经显示出将训练时间减少了20倍(Oh和Jung,2004)。 在一个Quadro K5200显卡上花了约1周时间,通过50个时代对网络进行培训。
神经网络的测试阶段涉及到通过网络的前进传递,这在计算上是微不足道的,并且可以容易地在CPU上执行。 例如,对于具有11个残基的蛋白质,具有110个残基和6秒的蛋白质的正向通过仅需要0.8秒。 最耗时的部分是通过PSI-BLAST计算PSSM。 英特尔®至强E5-1650 v2 @ 3.50GHz的单个CPU分别对于相同的两种蛋白质需要约10分钟/ 50分钟/次迭代。 PSSM的计算成本是基于简档的方法的慢计算的主要原因。



总结,主要是学习论文的结构,



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值