子豪 发自 凹非寺
量子位 报道 | 公众号 QbitAI
你以为GAN只能用来生成虚假的人脸吗?现在GAN又有了新用途。
它还可以用来生成功能蛋白序列。
这一工具叫做ProteinGAN,可以处理和学习不同的天然蛋白质序列,随后利用获取的信息生成新的序列。
值得注意的是,它应用于功能蛋白序列,减少了非功能蛋白序列的实验消耗;还有效保证了蛋白质活性;并且只需几周时间,可以显著提高药物研发的速度。
ProteinGAN由立陶宛维尔纽斯大学和瑞典查尔默斯理工大学共同开发,研究论文已经在Nature子刊《机器智能》上发表。
功能蛋白,是指携带能够完成人体的生理功能的蛋白质,它们主要完成人体的各种代谢活动。
蛋白质序列,通常表示为字母串,列出了氨基末端开始至羧基末端的氨基酸,其顺序最终决定蛋白质的3D结构、理化性质和分子功能。
蛋白质设计,可以分为结构预测、固定骨架设计、全从头设计三种。
不同于AlphaFold根据序列预测蛋白质结构,ProteinGAN是用于生成蛋白质序列。
过去的方法依赖于将随机突变引入蛋白质序列。但是这通常会导致蛋白质活性下降,甚至丧失,必须进行多轮昂贵且耗时的实验,设计过程非常缓慢。
因此,功能蛋白的设计一直是蛋白质工程的难题。ProteinGAN是怎样做到的?
基本原理
ProteinGAN模型包含两个部分:判别器和生成器。
△判别器和生成器的网络结构示意图
生成器网络通过给定的随机输入向量,生成蛋白质序列;
判别器网络区分生成的数据(例如:蛋白质序列)与真实数据,将二者进行比较并评分。
△ProteinGAN训练过程
能够生成多样化的蛋白质序列
为了评估模型的性能,研究团队用苹果酸脱氢酶(MDH)训练模型,并且通过计算生成序列和自然序列的相似性来评估训练进度,最终是二者达到高度的一致性。
模型生成的序列与天然蛋白质序列具相似的物理性质,显示出与天然序列高度相似的氨基酸组成:
对于每个生成的序列,从训练集中选择前100个匹配项。然后将选定的序列进行比对,并针对多重序列比对(MSA)中的每个位置,计算同源序列中氨基酸的频率。
红色的氨基酸表示在MSA中很少发生(<5%),而黄色的氨基酸表示在MSA中经常观察到。
右图显示了残基的出现(x轴)及其与蛋白质表面的距离(y轴),表明生成的序列残基跨越整个蛋白质结构。结果表明:
ProteinGAN能产生高度多样化的蛋白质序列。
并且,通过测量NADH(还原型辅酶)氧化后在340纳米处吸光度的下降程度,确定反应速率,得到结论:
生成的功能蛋白序列有24%可溶,表现出苹果酸脱氢酶(MDH)催化活性。
这意味着,ProteinGAN可能在医学和研究中有广泛应用,尤其是对于开发工业酶、抗体和疫苗等新型蛋白质药物等,有着巨大的潜力。
网友关注
对此,有网友认为:要谨慎地对待蛋白质工程的研究和应用。
“蛋白质设计的进步具有巨大的经济潜力,但是我们必须谨慎……
将新序列放入把一个新的序列放入质粒中进行表征是很容易的,但如果这个质粒进入野生细菌中,这些细菌可以用它来降解或合成化学物质,就会出现严重的问题。”
另一位网友回复道:
“这确实存在着很大的危险,但是新型蛋白的重要性不容忽视,我们必须保持谨慎和警惕,同时不能因陷入恐惧而退缩。”
研究团队表示,模型能够降低蛋白质工程设计的速度,降低酶催化剂的开发成本。目前,他们致力于提高模型稳定性,并且用AI生成的有机物解决塑料污染等问题。
ProteinGAN在GitHub上开源,感兴趣的读者可通过链接查看。
参考链接:
[1]https://www.nature.com/articles/s42256-021-00310-5
[2]https://github.com/Biomatter-Designs/ProteinGAN
[3]https://phys.org/news/2021-04-proteingan-adversarial-network-functional-protein.html