Foldseek 是由韩国首尔大学 Martin Steinegger 团队开发的蛋白质结构相似性搜索工具,其核心技术基于 3Di(三维相互作用字母表) 和 MMseqs2 框架,实现了速度与灵敏度的突破。以下是其关键特性:
- 快速结构比对
Foldseek 将蛋白质结构离散化为 20 种 3Di 状态字母表,结合序列和结构信息进行比对,速度比传统工具(如 Dali、TM-align)快 4-5 个数量级。例如,在单张 GPU 上,搜索 100 万个结构仅需数秒,而传统方法需数小时至数天。 - 低序列相似性识别
即使序列同一性低于 15%,Foldseek 仍能通过结构相似性检测同源蛋白。例如,在黄病毒科研究中,它成功识别了序列同源性仅 10-15% 的庚肝病毒与瘟病毒 E1 糖蛋白的结构同源性。 - 多场景支持
- 数据库搜索:支持 AlphaFoldDB、PDB、CATH 等 7 大数据库,覆盖超 6 亿个结构(截至 2025 年)。
- 复合物比对:2025 年推出的 Foldseek-Multimer 模块可快速比对蛋白质复合物,速度比 US-align 快 100 倍以上,适用于宏基因组数据分析和药物靶点筛选。
- 聚类与注释:通过结构聚类(如
easy-cluster
模块)生成代表性序列,辅助功能注释和进化分析。