蛋白质结构序列进行三维结构预测的在线服务器

最新推荐文章于 2025-03-13 19:07:02 发布

绝顶少年

最新推荐文章于 2025-03-13 19:07:02 发布

阅读量2.8k

点赞数 18

文章标签：其他

本文链接：https://blog.csdn.net/lijingxiaov5/article/details/136620086

版权

本文介绍了AlphaFold2、Swiss-Model、Robetta、RoseTTAFold等蛋白质结构预测工具，以及iDrug如何利用多数据融合和深度学习技术提升建模精度。同时提到了同源建模方法如Swiss-Model的使用步骤和限制，以及TheFolding@Home等分布式计算项目在蛋白质折叠研究中的作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

AlphaFold2：https://alphafold.ebi.ac.uk/（主要是一个蛋白质数据库，能查看现已有预测的蛋白质三维结构，蛋白名称，基因名称，物种名等，）蓝色代表预测度高于百分之九十，橙色代表预测度低于百分之五十。，
使用谷歌搜索AlphaFlod Colab，选择第一个搜索结果即可，或使用下面的链接跳转：https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb 进入Colab界面后，只需要输入自己想预测的序列和项目名称(预测结果的文件需要用pymol打开）

swiss—model, pdb里边必须有同源序列才能进行同源建模（要高于百分之三十)。操作步骤如下:start model———输入序列search for templates——选一个最符合自己要求的，也可以多选——build Models,同源建模后就得到三维立体结构——str Assessment看评估结果。根据GMQE值(全球性模型质量估测)及QMEAN值评价同源建模的结果。GMQE值在0-1之间，越接近1则建模质量越好，QMEAN值区间为-4-0，越接近0则匹配度越好：https://swissmodel.expasy.org/

Robetta 是一种蛋白质结构预测服务：允许自定义序列比对，用于同源建模、约束、局部片段（https://robetta.bakerab.org）
RoseTTAFold (https://www.rosettacommons.org/)
（https://blog.csdn.net/weixin_43687366/article/details/123248334）还可应用于蛋白质结构突变致病的病因学研究。以 TANGO2 （transport and Golgi organizationprotein 2 ）为例，其结构缺陷会导致代谢紊乱。TANGO2 的 RoseTTAFold 模型采用了N端亲核氨基水解酶（Ntn）折叠，其活性位点残基排列整齐，表明 TangO2 可能作为一种水解膜成分中碳氮键的酶发挥作用。根据该模型，大卫·贝克团队解析出该蛋白的结构突变可能通过阻碍其催化作用或在疏水核心产生立体冲突来导致疾病。该网络可以无缝处理断链，它可以直接从序列信息中直接建立蛋白质-蛋白质复合物的结构模型，缩短了为单个亚单位建立模型然后进行刚体对接的标准程序：
PEP-FOLD （https://bioserv.rpbs.univ-paris-diderot.fr/services/PEP-FOLD3/#exampes）

预测仅限于 5 到 50 个残基之间的氨基酸序列，尽管 PEP-FOLD 已经过离线测试，最多可检测 80 个氨基酸的大小。对于超过 50 个氨基酸的大小，用户可以联系作者。对于短于 5 个氨基酸且通常是非结构化的肽，应首选基于分子动力学模拟的构象采样方法或针对小化合物开发的方法。输入序列用于指定肽的氨基酸序列。输入序列文件必须采用 FASTA 格式。查询肽序列必须仅包含大写的 20 个标准氨基酸的字符串，使用 1 个字母代码

腾讯iDrug（https://drug.ai.tencent.com/console/cn/tfold?type=predict）

首先，开发了“多数据来源融合” 技术来挖掘多组多序列联配中的共进化信息；然后，借助“深度交叉注意力残差网络”，我们能够极大地提高一些重要的蛋白2D结构信息的预测精度，例如：残基对距离与取向矩阵；最后，我们通过一种新颖的“模板辅助自由建模”方法，将自由建模和模板建模生成的3D模型中的结构信息加以有效融合，从而大大提高了最终3D建模的准确性。

2. 使用流程

2.1 输入待预测的氨基酸序列 (必需)

1. 平台提供了两种氨基酸序列的输入方法，一种是直接通过文本框进行编辑，另一种是通过本地上传FASTA文件，两种方法二选一。
2. 两种方法都会对输入内容进行合法性检查，包括：
3. 1) 只能以大写字母输入，不支持非标准氨基酸字符 (即：B,J,O,U,X,Z)。
4. 2) 允许的氨基酸序列长度范围是30到800个残基。
5. 3) 支持一次提交多个序列；多个序列用“以 > 开头的一行”作为分割，并且“>”后面的内容作为下一个序列的序列名称。
6. 通过文本框输入氨基酸序列（如下图所示一个合法的输入氨基酸序列）