《Feedback GAN for DNA optimizes protein functions》论文解读

1,摘要
  在合成生物学中,生成对抗网络(GANs)是生成真实数据(如基因、蛋白质或药物)的一种具有吸引力的新颖方法。在这里,我们应用GANs合成DNA序列编码可变长度的蛋白质。我们提出了一种新的反馈回路架构——feedback GAN (FBGAN),利用外部功能分析器(an external function analyser)优化合成基因序列以获得所需的特性。所提出的架构还有一个优点,即分析器不必须是可微分的。我们将反馈回路机制应用于两个例子:生成抗菌肽编码的合成基因,以及优化合成基因所产生的抗菌肽的二级结构。一系列度量标准表明GANs生成的蛋白质具有理想的生物物理特性。FBGAN架构还可以用于优化GAN生成的数据以获得基因组学以外领域的有用特性。
2,引言
  合成生物学是一门对生物系统进行系统设计和工程设计的学科,是一个正在发展的领域,它将给医学、环境治理和制造业等领域带来革命性的变革。然而,目前设计生物制品的技术大多是手工的,需要大量的领域经验。人工智能可以帮助科学家利用现有的大量基因组和蛋白质组数据,从而改变生物产品的设计过程;通过揭示这些数据集中的模式,人工智能可以帮助科学家设计出最优的生物分子。生成模型,如生成对抗网络(GANs),可以用于医学和制造业的DNA序列、蛋白质和其他大分子的自动设计过程。
  将GANs用于合成生物学的解决方案需要一个框架来生成新的序列,也需要对生成的序列进行优化以获得所需的特性。这些特性可能包括序列与配体的结合亲和力,或生成的大分子的二级结构。合成分子所具有的这些特性可能对它们在现实世界中的应用是必要的。
  在这里,我们提出了一种新的反馈回路机制,用于使用GAN生成DNA序列,然后使用单独的预测器(表示为函数分析器)优化这些序列以获得所需的特性。
  将所提出的反馈回路机制应用于训练GAN产生蛋白编码序列(基因),然后富集产生的编码抗菌肽(AMPs)和α-helical多肽的基因。AMPs是典型的低分子量多肽,对细菌、病毒和真菌具有广泛的抗菌活性。它们是应用GANs的一个有吸引力的领域,因为它们通常很短,小于50个氨基酸,在对抗耐药菌方面具有广阔的应用前景。
  同样,二级结构的优化也是蛋白质设计中的常见问题并且是可行的,因为常见的二级结构(如螺旋和β-sheets等)甚至出现在短肽。由于α-helices结构是比β-sheets更加稳定和健壮的突变且AMPs通常是螺旋形的,所以我们将优化α-helices结构。
  对这两个特性的优化提供了一个证明,即所提出的反馈回路架构FBGAN可用于有效地优化一组不同的特性,而不管该特性是否有可微分分析器。
3,相关工作
  生成模型,如变分自编码器和递归神经网络(RNNs),也显示了在合成生物学应用中产生序列的前景。
  RNNs已被证明在为新药发现生成SMILES序列方面是成功的,最近的工作也表明:RNN输出可以通过迁移学习和微调对所需序列的特定的属性进行优化。一个类似的方法也被用于生成AMPs。RNNs与强化学习(RL)已经相结合用来产生适合生物活性的分子。
  GANs具有比RNNs更吸引人的特性,它允许通过提供给生成器的输入进行潜在空间插值。GANs越来越多地被用于生成真实的生物数据。近年来,GANs被用于形态轮廓细胞图像,生成时间序列重症监护病房数据,以及从多个细胞类型生成单细胞RNA-seq数据。GANs也被用来生成荧光显微镜成像的细胞图像,使用了一个生成器,将图像的一个通道作为输入来生成另一个通道。文献15的作者探讨了利用GAN提高主动学习的方法;相反,FBGAN使用分析器的反馈来改进GAN过程本身。
  在独立和并行的工作中,Killoran等人使用GANs生成了通用DNA序列。这项工作使用了一种广受欢迎的GAN变体,即Wasserstein GAN,它优化了生成的样本与实际样本之间的距离。在本方法中,首先对生成器进行预训练以产生DNA序列,然后用一种可微分的分析仪代替鉴别器。这种方法中的分析器是一个深度神经网络,它可以预测输入的DNA序列是否与特定的蛋白质结合。通过分析器的反向传播,作者修改了输入噪声的生成器,以产生理想的DNA序列。作者根据经验证明,在生成DNA序列的任务中,GANs优于变分自编码器。然而,文献16的方法并没有扩展到不可微分分析器,也没有改变生成器本身,而是改变了它的输入。在这里,我们提出一种新的反馈回路体系结构(FBGAN),以丰富GAN的输出,且满足用户所需的特性;图1给出了FBGAN体系结构的概述。FBGAN使用外部预测器(分析器)来优化为所需特性生成的数据点,该预测器还有一个额外的好处,即它不需要是可微分的。我们提出的反馈回路结构在该概念验证证明,首先可以生成实际的基因,或蛋白质编码DNA序列,长度可达50个氨基酸(156个核苷酸);然后使用反馈来丰富基因编码AMPs和α-helical肽的生成器。
图1 FBGAN框架 a, WGAN预先训练产生有效的基因 b, 函数分析器的一般形式,取一个序列并产生一个分数的黑盒子 c,FBGAN的反馈回路训练机制。在每个批次中,从生成器中采样若干序列并输入到分析器。分析器对每个序列进行评分,在某个截止值以上的序列被选择输入鉴别器。它们代替了鉴别器训练数据集中先前的序列,因此鉴别器的训练数据逐渐被合成数据所代替。
图1 FBGAN框架 a, WGAN预先训练产生有效的基因 b, 函数分析器的一般形式,取一个序列并产生一个分数的黑盒子 c,FBGAN的反馈回路训练机制。在每个批次中,从生成器中采样若干序列并输入到分析器。分析器对每个序列进行评分,在某个截止值以上的序列被选择输入鉴别器。它们代替了鉴别器训练数据集中先前的序列,因此鉴别器的训练数据逐渐被合成数据所代替。
4,FBGAN的设计和训练
  被Goodfellow提出的最基本的GAN由两个网络组成即生成器(generator, G)和鉴别器(discriminator, D),其中生成器G从输入噪声z的向量中创建新的数据点,而鉴别器D将这些数据点分类为真或假。G的最终目标是生成如此真实的数据点,以至于D无法将其分类为假数据点。通过网络的每一次传递都包含一个反向传播步骤,其中对G的参数进行了改进,使生成的数据点看起来更加真实。G和D的损失函数如下:

  具体地说,当x来自于真实数据的分布时,鉴别器寻求概率最大化D(x),当G(z)为生成的数据时最小化D(G(z))。
  Wasserstein GAN (WGAN)是GAN的变体,它最小化了实际数据分布与生成数据分布之间的距离。对大于1的梯度施加梯度惩罚,以保持Lipshitz约束。
  经验证明,在训练期间WGANs比GAN更稳定。此外,Wasserstein距离很好地对应于生成的数据点的质量。
  我们生产基因的生成模型遵循梯度惩罚由Gulrajani等人提出的WGAN结构。该模型由5层残差层,其中残差层由两个5*1的一维卷积组成。最后一层的softmax被替换为Gumbel softmax操作,温度t = 0.75。当从生成器采样时,取概率分布的最大值的位置输出一个核苷酸。模型在Pytorch中编码,初始训练70个epoch,batch大小为B = 64。
5,GAN 数据集
  我们首先组装了一组自然观察到的蛋白质序列训练集。从Uniprot数据库中收集了3 655个以上的蛋白质,其中每个蛋白质的长度小于50个氨基酸。这些蛋白是从Uniprot中所有长度为5-50个残基中选出的,然后根据序列相似性≥0.5进行聚类。从每个聚类中选择一个具有代表性的序列,形成不同的短肽数据集。该数据集的长度限制在50个氨基酸以内,因为该长度允许观察蛋白质的性质,如二级结构和结合活性,同时限制了长期的依赖性,GAN必须学会生成蛋白质编码序列。
6,反馈回路的训练机制
  反馈回路的训练机制包含两部分:第一个部分是WGAN,它产生的新基因序列还没有富集任何特性;第二部分是分析器。在我们的第一个用例中,分析器是一个可微分的神经网络,它接收一个基因并预测该基因编码AMP的概率。然而,分析器可以是任何在序列中接受并为序列分配“有利性”分数的黑盒子。在第二个用例,分析器是一个web服务器返回α-helical残留物的数量。FBGAN的一个优点是它可以与任何分析器一起工作,并且不要求分析器是可微分的。
  在初始次预训练后,GAN和分析器通过反馈机制连接;预训练是使生成器产生有效的序列输入分析器。一旦反馈开始,每个epoch都有几个序列(这里有15个批次)从生成器采样并输入到分析器。分析器给每个序列分配一个分数,所有得分高于截止值的序列都被输入到鉴别器的数据集。生成的序列替换了鉴别器训练数据集中先前基因序列。生成器模仿生成这些新序列的能力因此也计入了损失。
  然后像往常一样在一个epoch中训练GAN。随着反馈过程的继续,鉴别器的整个训练集被高得分生成的序列重复替换。

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值