字节跳动开源AI蛋白模型在多个基准测试优于AlphaFold3、AF2.3和RoseTTAFold2NA

字节跳动团队AI蛋白领域新作:Protenix - Advancing Structure Prediction Through a Comprehensive AlphaFold3 Reproduction,《Protenix-通过全面的AlphaFold3复制推进结构预测》近日发表在bioRxiv

9422a4f5cef4fdb6e911a0b57d72f2ca.png

-Protenix是字节跳动的开源模型,在预测各种生物分子结构方面实现了SOTA,在多个基准测试中优于AF3AF2.3RF2NA

-该团队完善了AF3的方法论,纠正了错误,分享了复制见解,还改进了置信度头架构,以获得更好的预测准确性。

-Protenix通过开源模型权重、推理和可训练代码以及易于研究集成的综合数据集版本增强了可访问性。

-就性能而言,Protenix在蛋白质配体共折叠、蛋白质界面和核酸靶点预测方面表现出色,即使没有类似的训练结构也显示出高精度。

-案例研究突出了Protenix在生物学和药理学研究中的潜力,尽管局限性表明需要更多的OOD测试来实现普遍性。

研究背景

1.研究问题:这篇文章要解决的问题是如何通过全面的AlphaFold3复现来推进结构预测。尽管AlphaFold 3AF3)在蛋白质结构预测领域取得了显著进展,但其有限的访问性限制了其在研究社区中的广泛应用。

2.研究难点:该问题的研究难点包括:AF3代码和某些模糊性及打字错误的缺失,这使得其他研究人员难以复现或改进该模型。

3.相关工作:该问题的研究相关工作包括NeuralPLexerUmolRoseTTAFold-AA等复杂预测任务的研究。其中,AF3代表了这一领域的重大进步。

研究方法

这篇论文提出了Protenix,用于解决AlphaFold3的访问性问题,并支持跨学科研究社区。具体来说,

1.模型性能Protenix在预测不同分子类型的结构方面表现出色。通过与AF3Alphafold-Multimer 2.3AF2.3)和RoseTTAFold2NARF2NA)进行基准测试,Protenix在不同分子类型上的预测性能得到了验证。

b93984837f078f7c17746162a1446047.png

2.方法论Protenix基于AF3的描述进行实现,并对几个模糊步骤进行了细化,纠正了打字错误,并根据对模型行为的观察进行了有针对性的调整。通过共享复现经验,作者希望支持社区在这些改进的基础上进行进一步的研究。

3.可访问性Protenix是完全开源的,提供了模型权重、推理代码和可训练代码,以便于研究目的。

实验设计

1.数据集Protenix使用从PDB中策划的实验结构和AlphaFold2OpenFold预测的蛋白质单体结构进行训练。训练数据集包括Weighted PDBProtein Monomer distillationSet1Set2)以及OpenProteinSet的子集。评估数据集包括PoseBusters V2Low Homology Recent PDB SetCASP15 RNA目标。

2.推理和采样:对于每个PDB条目,生成25个样本,每个样本使用5个模型种子生成。推理过程中不应用裁剪,通常使用10次回收。

3.链和原子排列:对每个预测结构进行链映射,以建立预测和真实实体之间的一一对应关系。然后对链和原子进行排列,以更好地对齐预测和真实结构。

结果与分析

1.配体:在PoseBusters V2基准测试中,ProtenixRMSDPB-Valid指标上均优于AF3-2019,表明Protenix在蛋白质-配体共折叠任务中代表了当前最先进的模型。

480ca6d367610ae97ab7914377933872.png

2.蛋白质:与AF2.3相比,ProtenixDockQ成功率上表现更高,尤其是在所有蛋白质-蛋白质界面和蛋白质-抗体界面上。

9af817ddb0744b3e3d04a4838f7fd6c7.png

3.核酸:在CASP15 RNA目标上,Protenix的平均LDDTTM-scoreAF3相当,但显著优于RF2NAProtenix在预测蛋白质-核酸复合物时也表现出更高的准确性。

a89050e658af9038176daf6ea29530f8.png

总体结论

这篇论文介绍了Protenix,一个旨在降低AlphaFold3访问性障碍并支持跨学科研究社区的模型。通过全面的AF3复现和改进,Protenix在蛋白质、配体和核酸的结构预测中表现出色。该模型的完全开源性和提供的资源将有助于推动该领域的进一步发展。未来的工作将集中在进一步提高模型性能、引入额外功能和增强评估工具上。

优点与创新

1.模型性能Protenix在预测不同分子类型的结构方面表现出色,与AF3AF2.3RF2NA相比具有强大的竞争力。作为完全开源的模型,它使研究人员能够生成新的预测并针对特定应用进行微调。

2.方法论:基于AF3的描述,Protenix实现了多个模糊步骤的改进,纠正了打字错误,并根据对模型行为的观察进行了有针对性的调整。通过分享重现经验,支持社区在这些改进的基础上进行进一步的研究。

3.可访问性Protenix已开源,提供了模型权重、推理代码和可训练代码,以便于研究目的。数据发布旨在提供全面的基础,供研究人员重现结果、进行进一步分析或利用数据集进行新应用。

4.数据管道:详细重现了AF3的数据管道,并对一些算法进行了调整以提高性能。

5.模型和训练:对AF3的算法进行了分析和调整,引入了自定义CUDA核函数和混合精度训练等技术,提高了训练效率。

6.评估工具:提供了详细的评估工具和链原子排列方法,确保评估的一致性和公平性。

记录AI蛋白质设计在诺奖背后的人和事

b04803e98c0706263b1b274457bd99be.gif

高颜值免费 SCI 在线绘图(点击图片直达)

93e37cc3838a302b24ff470184d47c95.png

最全植物基因组数据库IMP (点击图片直达)

eb072e1f597897ca6c3c3561d2a012ab.png

往期精品(点击图片直达文字对应教程)

a2b838c95fbb8438003d76767693c901.jpeg

25040af58bf5b8309982e19670344841.jpeg

4179abbe6b7ecd2894c0276e8d49ed29.jpeg

3489f7e1d37c6193e1fafca5ece9e4df.jpeg

c4316b0a7ba58e9898e6ffbce3e9550e.jpeg

741104ceea5fabda2eaf4a626dad96a9.jpeg

e8bba430c9c26deec19dd117eb894c8c.jpeg

c9ed0c40b827bf29d55ec356321aa90d.jpeg

991218fb90a3e288891a5dda84091589.jpeg

566c825d26cc222e4f4f49cbb3931f21.jpeg

8e5299dc47c1468e3f35b24a80337526.jpeg

4445794e84d91d9ac67686509790065f.jpeg

f025035adfe5b9f8d1ef0636b07547a2.png

b75ed4337db7fa5ad78f95256b880f97.png

9c7253592f435532bb2de59035957471.png

bc5ade55ed394b744111cd5d4187c7ba.png

daf6339f1518fb0c16a4404d3c6efa38.jpeg

34143b32baa58fcc8a9cae76fcea488b.jpeg

8a18d7437e8de2ef81eecfcb69f26c6a.jpeg

0ae34b60b954f1a987d5465b162a4d87.jpeg

ba4e4dd760ce84682305f7577c768f0d.png

e74d5bf8815dd9d67e1f4915edc67f77.png

d7f7a6d38bd4d180e626562c4fd50195.jpeg

6f15ba30adb0ba049680ad466c4f8d49.png

949922a6ba4970b8a72a4cff25c80dac.png

9527be9f4de7a06181fa1792666f617e.jpeg

a054331c52b0ff84e7189027d8520bff.png

1d2cacd396bbceaf582aa37c66713f36.png

机器学习

172ae584d77e325b0a914d7615347f16.jpeg

95d9b321c8bd0ffb44d3d00080990842.jpeg

da934aab26c41d946f74ace7f24e0200.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值