Dihedral angle prediction using generative adversarial networks 阅读笔记

使用生成对抗网络的二面角预测

Abstract
 

      为蛋白质结构预测及其他应用开发了几种二面角预测方法。 然而,预测角度的分布与实际角度的分布不同。 为了解决这个问题,我们采用了生成对抗网络(GAN),它在图像生成任务中显示了有希望的结果。 生成性对抗网络由两个受过对抗训练的网络组成:鉴别器和发生器。 训练鉴别器以区分来自数据集的样本和生成的样本,同时训练生成器以生成实际样本。

      尽管GAN的鉴别器经过训练以估计密度,但模型的显式密度不易处理。 另一方面,引入噪声对比估计(NCE)来估计非标准化统计模型的归一化常数,从而估计密度函数。

      在本文中,我们引入噪声对比估计生成对抗网络(NCE-GAN),通过从已知分布(如噪声对比估计)中提供噪声样本,并为其添加相应的类,可以对生成对抗网络进行显式密度估计。鉴别。 我们分析了小批量识别和发电机的新损失。 我们还提出了辅助分类器GAN(AC-GAN)和半监督GAN的残差方式变体来处理窗口中的序列信息。

      在我们的实验中,比较了条件生成对抗网络(C-GAN),AC-GAN和半监督GAN。 并且投入了改善条件的实验。

       我们发现了AC-GAN现象,其预测角度的分布由不寻常的簇组成。 半监督GAN的预测角度的分布与Ramachandran图最相似。 我们发现,添加NCE的输出作为鉴别器的附加输入有助于稳定GAN的训练并捕获详细的结构。 但是,在发电机中使用新提出的损耗仅对C-GAN和AC-GAN有帮助。 将回归损失添加到生成器的对象并且通过回归损耗仅使用预测角度作为生成器的附加输入可以改善C-GAN和AC-GAN的条件生成性能。

 

I.3.2二面角预测方法

       由于相邻Cα原子之间的键距几乎固定且w角几乎固定,因此扭转角φ可代表蛋白质的骨架结构[24,5]。 

       析构法是第一个预测实际数值二面角的方法。报道了角度的皮尔逊相关系数。采用迭代级联关联神经网络[5]对三态二级结构和二面角进行了预测。

       Real-SPINE是第一种专用于二面角预测的方法[5,25]。 通过PSI-BLAST [26]计算的位置特异性评分矩阵(PSSM),一个参数描述了链末端附近氨基酸的不存在,七个代表性氨基酸特性(PP)[27]和SPINE预测的二级结构 [28]被用作输入[25]。 为了最小化角度周期性的影响,它们的改进工作在φ,角度上应用了移位变换,使得移位角度的概率在边界角附近接近零[29]。

       为避免预测空间禁区的角度,建议使用SPINE-X和SPINE-XI。 SPINE-X的想法是,作为φ和具有双峰分布,将预测过程分成两个阶段。 首先,将每个角度分为两个状态(峰值I和峰值II),然后从峰值进行实际值预测。 但是,预测角度分布太窄。 在SPINE-XI中,他们应用条件随机场(CRF)模型,它改善了角度分布和预测精度[5,30]。

        先前解释的角度预测方法使用滑动窗口进行预测。 最近,SPI DER3利用具有长短期记忆(LSTM)细胞的双向递归神经网络(BRNN)来捕获非局部相互作用[33]。 迭代学习也被用作以前的工作[32]。 模型的输入由七个理化性质(PP)[27],来自PSI-BLAST的PSSM [26]和来自HHBlits的30维隐马尔可夫模型序列谱[34]组成。 他们的模型预测了SS,ASA,骨干角(θ,τ,φ,),半球暴露(HSE)[35]和接触数(CN)

II.3神经网络的体系结构

       我们对回归模型和生成器使用了相同的体系结构。常见的体系结构是一个多层感知器,由3个隐藏层和每层150个神经元组成,作为SPIDER的架构[31]。我们使用单热编码序列信息作为输入进行预测,并且在我们进行确定性角度预测时没有在生成器中添加输入噪声,但是在一些实验中添加了预测角度。除了输出激活功能之外,使用a = 5 [16]的漏泄整流器线性单元(LReLu)作为激活功能。预测φ,角度的范围是(-π;π)。将softsign激活函数应用于输出层后,将π乘以拟合范围。除了在一些实验中添加通过回归模型预测的角度之外,没有对发生器的输入和输出使用归一化。当预测角度被馈送到发电机中时应用缩放。而且只有φ;对于窗口大小17,预测窗口中心残留物中的角度。使用移位角方法[29]来处理角度的周期性。通过计算训练数据的适当偏移,φ移动π(90°)并在-1:40(-80:2°)附近移动。

      与回归模型和生成器一样,在每个层的3个隐藏层和150个神经元组成的多层感知器被用于鉴别器,其中也包括NCE模型。这意味着辅助分类器和鉴别器的权重被共享用于AC-GAN,并且还共享了分类器和半监督GAN的鉴别器的权重。将移位的实际φ,角度和噪声样本馈入噪声对比估计(NCE)模型。序列信息和缩放角度信息被连接,并且该组合信息被馈送到C-GAN的鉴别器中。除了一些实验外,只有角度信息被馈入AC-GAN和半监督GAN的鉴别器。将在第II.5节中描述的NCE-GAN结构用于GAN的鉴别器中以进行评估。注意,在一些实验中,NCE模型的输出也被馈送到GAN鉴别器中。 NCE模型预测它是从实际角度还是从噪声样本获得输入,并且还输出预测序列信息,如残留半监督GAN,将在第II.7节中介绍。

II.1 Dataset
      我们通过与[31]中描述的类似过程获得了我们的数据集,但是数据集是不同的。 PISCES [63]保留了序列相似性低于25%,分辨率高(<2:0A),序列长度在40到700之间,R值好于(小于)0.25的蛋白质。 Biopython文库[64]用于解析序列,DSSP [65]用于二面角计算。 仅考虑了20种标准氨基酸,并且使用像SPIDER2 [32]的窗口大小17来获得序列片段。 分别获得4590个蛋白质链和1190个蛋白质链用于训练和测试集。 分别获得845521个片段和298878个片段用于训练和测试集。 为了减少计算时间,除了预测每个中心氨基酸的角度和计算条件对数似然之外,只有随机选择的25000个片段样本用于大多数测试。

II.2实验中使用的模型

      使用回归损耗预测φ,角度的回归模型,如公式II.1 [31]所示,被用作角度预测的基线模型。

噪声对比估计(NCE)模型被用作密度估计的基线模型。 由于我们不需要从NCE模型生成样本,我们使用通常的深度学习分类器进行密度估计。 用于密度估计的噪声样本来自均匀分布。

      三种生成的对抗性网络模型;采用条件生成对抗性网络(C-GAN)、辅助分类器生成对抗性网络(AC-GAN)和半监督生成对抗性网络(半监督GAN),比较它们的特性,并观察可能的改进结果的变化。将在第II.5节中介绍的ns - gans在生成模型中用于跟踪估计密度。将在第II.7节中介绍的残差式acgan和残差式半监督GAN被用于acgan和半监督式GAN,以利用窗口中的所有序列信息。

II.3神经网络的体系结构

      我们对回归模型和生成器使用了相同的体系结构。常见的体系结构是一个多层感知器,由3个隐藏层和每层150个神经元组成,作为SPIDER的架构[31]。我们使用单热编码序列信息作为输入进行预测,并且在我们进行确定性角度预测时没有在生成器中添加输入噪声,但是在一些实验中添加了预测角度。除了输出激活功能之外,使用a = 5 [16]的漏泄整流器线性单元(LReLu)作为激活功能。预测φ,角度的范围是(-π;π)。将softsign激活函数应用于输出层后,将π乘以拟合范围。除了在一些实验中添加通过回归模型预测的角度之外,没有对发生器的输入和输出使用归一化。当预测角度被馈送到发电机中时应用缩放。而且只有φ;对于窗口大小17,预测窗口中心残留物中的角度。使用移位角方法[29]来处理角度的周期性。通过计算训练数据的适当偏移,φ移动π(90°)并在-1:40(-80:2°)附近移动。

      与回归模型和生成器一样,在每个层的3个隐藏层和150个神经元组成的多层感知器被用于鉴别器,其中也包括NCE模型。这意味着辅助分类器和鉴别器的权重被共享用于AC-GAN,并且还共享了分类器和半监督GAN的鉴别器的权重。将移位的实际φ,角度和噪声样本馈入噪声对比估计(NCE)模型。序列信息和缩放角度信息被连接,并且该组合信息被馈送到C-GAN的鉴别器中。除了一些实验外,只有角度信息被馈入AC-GAN和半监督GAN的鉴别器。将在第II.5节中描述的NCE-GAN结构用于GAN的鉴别器中以进行评估。注意,在一些实验中,NCE模型的输出也被馈送到GAN鉴别器中。 NCE模型预测它是从实际角度还是从噪声样本获得输入,并且还输出预测序列信息,如残留半监督GAN,将在第II.7节中介绍。

 

II.7 AC-GAN和半监督GAN的残差变体

     由于我们想要利用窗口中的所有序列信息,AC-GAN和半监督GAN的鉴别器应该能够处理序列信息。 为此,我们修改了AC-GAN和半监督GAN,以便它们输出二面角的相应序列信息。 我们将修改后的版本分别称为Residue-wise AC-GAN和Residue-wise Semi-supervised GAN。

       在残留方式AC-GAN中,分类器以剩余方式输出给定输入角度的相应序列信息。 类似地,在残留半监督的GAN中,鉴别器输出用于生成角度的实际角度和生成角度的伪标签的序列信息。 请注意,即使我们因其结构来源而命名为残留半监督GAN,我们也不会在实验中提供未标记的角度(样本),因为它不可能没有序列信息(标签)的角度信息。

       使半监督鉴别器处理残留信息的一个问题是我们希望每个输入x只有一个关于pmodel(C = fakejx)的输出。 (当我们也使用NCE-GAN并为噪声样本添加一个类时会出现同样的问题,如图II.2所示。噪声样本的类也可以通过类似的过程处理。)。 我们可以通过以下过程使鉴别器做到这一点。 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值