NBT - Foldseek快速准确搜索结构相似的蛋白,AlphaFold蛋白质数据库提供了一个快速的搜索工具...

Foldseek是一个新的结构搜索程序,能快速找到三维结构相似的蛋白质,帮助研究人员鉴定未知蛋白质的功能。通过将蛋白质结构转换为“结构字母表”,Foldseek结合了基于结构和序列搜索的优点,提高了搜索效率和准确性。这款开源软件已经在多个结构数据库中得到应用,对于生物学研究,尤其是新病原体蛋白质功能的确定具有重大意义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Foldseek为结构搜索程序,它可以轻松找到三维结构相似的蛋白质。

ab83c79f703ae7aa9cf7b8e1301bf146.png

Foldseek允许研究人员鉴定结构类似的蛋白质。图片来源:DeepMind

当你发现一种蛋白质时,如何确定其功能?这正是Gregory Gloor面临的问题。

Gregory Gloor是加拿大伦敦西安大略大学(University of Western Ontario in London, Canada)的生物化学家,Gloor正在研究油田废水处理厂的细菌群落,希望能鉴定有助于细菌分解有毒物质的蛋白质。他开始研究感染这些细菌的病毒(称为噬菌体)表达的蛋白质。遗憾的是,在已知的蛋白质数据库中未查询到任何结果。

然后,Gloor找到一款名为Foldseek的搜索工具,其创建者于2021年首次共享,并于2023年5月8日在线发表于《Nature Biotechnology》杂志。他说:“这就像‘哈利路亚’。”他的项目“从基本不可能成为了可能”。

蛋白质由氨基酸组成的多肽链折叠而成,其折叠结构决定其功能。在过去几年里,仅从氨基酸序列推断蛋白质三维结构的人工智能工具有了巨大提高。研究人员使用Google DeepMind开发的AlphaFold 2、华盛顿大学西雅图校区团队的RoseTTAFold和其他此类工具编译并创建了包含数亿个蛋白结构的数据库。Foldseek可以快速搜索这些数据库,找到与目标蛋白质结构相似的蛋白质——显然,功能也相似。

两全其美

寻找氨基酸序列相似的蛋白质是确定不熟悉蛋白质功能的常规算法。如果这些相关蛋白质的功能已知,研究人员可以预测新蛋白质的功能。

基于序列的搜索,速度很快,就像在硬盘上搜索文件名。但它们通常会错过很好的匹配,因为结构相似的蛋白质可以有完全不同的序列。基于结构的搜索,寻找结构相似而不是序列相似,但这可能需要数千倍的时间,因为比较复杂的三维结构从算法上来讲是很困难的。借助Foldseek,研究人员得到了两者的最佳结合:该软件将蛋白质的结构表示为一串字母,即“结构字母表”,从而既提供了基于结构搜索的灵敏度, 又具备了基于序列的搜索的速度

首尔国立大学的生物学家Martin Steinegger是该论文通讯作者。他说:“关键思想之一:为了产生良好的结构搜索结果,正确编码非常重要。”

ColabFold通过将MMseqs2的快速同源搜索与AlphaFold2或RoseTTAFold相结合,提供了对蛋白质结构和复合物的加速预测。Gloor首先使用ColabFold预测他发现的噬菌体蛋白质的结构,然后使用Foldseek与已知蛋白质数据库进行匹配。结果发现,其中一些蛋白质是形成病毒的外壳;其他的是酶。他的评价:Foldseek“非常聪明”。

Foldseek并非第一个将蛋白质结构简化为字母表的算法。其他搜索工具通常根据蛋白质序列中紧接其前和后氨基酸的方向,给每个氨基酸分配一个字母。然而,这种方法忽略了线性链中相距较远但在三维空间中相邻的氨基酸之间的相互作用。Foldseek根据氨基酸与其在折叠的蛋白质中最接近的氨基酸的距离和定位来为每个氨基酸分配20个字母中的一个。Steinegger表示,通过关注这些空间桥梁,Foldseek的“三维相互作用字母表”更好地捕捉了蛋白质的全局结构。

d29d626fa0a490658c4cd50aee4ac83a.png

Foldseek工作流程:a. Foldseek在一组查询结构和一组目标结构中进行搜索。(1)将查询和目标结构离散化为3Di序列。为了检测候选结构,我们对3Di序列应用了MMseqs2的快速和敏感的k-mer和无间隔对齐预过滤器。(2)通过结合3Di和氨基酸替代得分的向量化Smith-Waterman局部对齐来进行筛选。或者,使用加速了1.7倍的TM-align版本进行全局对齐。b. 学习3Di字母表。(1)3Di状态描述了残基i与其最近邻j之间的三维相互作用。最近邻具有最接近的虚拟中心距离(黄色)。虚拟中心位置经过优化以获得最大的搜索灵敏度。(2)我们从两个主链片段(蓝色和红色)的六个Cα坐标中提取七个角度、欧几里德Cα距离和两个序列距离特征,以描述残基i和j之间的相互作用几何形状。(3)使用VQ-VAE28进行训练来定义20个3Di状态,这些状态在进化上是最大程度保守的。在结构搜索中,编码器预测每个残基的最佳匹配3Di状态。

回顾过去

欧洲分子生物学实验室欧洲生物信息学研究所(European Molecular Biology Laboratory’s European Bioinformatics Institute)的计算生物学家Janet Thornton说:“生物学发生在三维空间中。” 基于蛋白质结构的比较"使您能够更远地观察进化时间,从而可以识别出从同一前体蛋白质进化而来的非常遥远的亲属"。

为了测试Foldseek,Steinegger的团队使用了一个包含365,000万个蛋白质的数据库,这些蛋白质的结构是由AlphaFold 2预测所得。他们将其中的100个结构输入Foldseek,并要求它为每一个结构在数据库中查询排名最相似的蛋白质。分数是根据算法检索到的"真阳性"的数量(即根据原子模型得分高于某个相似性阈值的蛋白质)以及检索到"假阳性"之前的数量来确定的。与两种常见的基于结构的搜索工具TM-align和Dali相比,Foldseek的表现更优,分别提高了24%和8%,速度快提高了35000和20000倍。与基于结构字母表的工具CLE-SW相比,Foldseek提高了23%,速度提高11倍[1]。

Foldseek作为开源软件适用于macOS和Linux计算机。开发者还创建了一个Web服务器, 供研究人员搜索涵盖数亿个蛋白质的七个结构数据库中的任意一个。据Steinegger称,该软件至少被安装了14000次,研究人员每天在服务器上运行约300次搜索。

Thornton表示,Foldseek可以帮助研究人员确定新病原体中蛋白质的功能,或者简单地揭示生物体的运作方式。例如,Steinegger和他的团队应用Foldseek在AlphaFold数据库中找到相关蛋白质簇,并确定了一种与人类组蛋白结构相似的细菌蛋白质[3]。

利用现有的搜索工具,Gloor找到了他研究中一小部分噬菌体蛋白质的匹配项,但这些噬菌体蛋白都没有已知的功能。使用Foldseek工具,他找到了一半的蛋白质匹配项,并将其中15%确定为酶[2]。

Gloor表示:“将三维相互作用的结构转化为字符串需要相当程度的洞察力和独创性。”使用Foldseek,科学家可以了解更多生物体中的更多蛋白质。“这将改变做进化研究的方式和方法,”他说。“它将提高我们寻找真正独特的生态系统并找出其工作原理的能力。”

参考文献

[1]. van Kempen, M. et al. Nature Biotechnol. https://doi.org/10.1038/s41587-023-01773-0 (2023).

[2]. Say, H., Joris, B., Giguere, D. & Gloor, G. B. Preprint at bioRxiv https://doi.org/10.1101/2023.04.19.537516 (2023).

[3]. Hernandez, I. B. et al. Preprint at bioRxiv https://doi.org/10.1101/2023.03.09.531927 (2023).

阅读原文内容

https://www.nature.com/articles/d41586-023-02205-4

往期精品(点击图片直达文字对应教程)

a13dd7de5759c90174a79759f14dbdcf.jpeg

06a1e51bc0a24430593386d6eb012568.jpeg

f519371ee7aa964f58bd9c607510cfa9.jpeg

0dc6cec74fc6ae304992340739ddfa1a.jpeg

b52791684d5e7138fd8aadc5b3653954.jpeg

42d120865a35efaee602f399c6121440.jpeg

33b57a301b583f48122056b150a3d6a1.jpeg

8e78dd2a80fcb672876df9a787784d7a.jpeg

17f424e0fb6d87748d4f714d73a554ec.jpeg

62719cac79379af27b49c0831c606ee1.jpeg

d32a0a2e776660999c06b65171c21577.jpeg

23c24d1c39d67f9d74c41327a4e0db31.jpeg

109795d083244bafe1571e24c05223a6.png

ec536f19a736fec018901e46d55b033b.png

c981dd99036034fecaaf4ca3c6643b3e.png

9ad3a38ae5236d0e4a21d360ff1f8d8c.png

d6778868d3d36d0eb8759bb90f1a2dcf.jpeg

ba28373b9e379da7a0e010574ceb2339.jpeg

f199cbfa1b39d29999ccc1898c8937b9.jpeg

1c6514a618743503a4e94bcf740b92ff.jpeg

a31012459bb5556d2a614b56ba604f02.png

fa0d9ec76ec5008c0ac8d86682948f0b.png

b4217c2b49c6f9e12977760a9984b03c.jpeg

b259ad6a82a3461bcd7c618a5311615a.png

dc83c7f04e37f5d58e461cfb73ba8126.png

c0f9f37ab860bd891c505cc8aae43abc.jpeg

3821e6e5f38bf9312144f0cbd19c7dd2.png

a2e94130b9849690b260422127362ea0.png

机器学习

14ede0f7e6f7629ac867e3cd04c9c01c.png

ca4901e7a9fbfb657c08cb364c646ef0.jpeg

825c2d03e46183c8c688aa7df944c632.jpeg

36b15d625e6ee978956a400ef770b0c0.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信宝典

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值