【实用教程】使用AlphaFold2进行蛋白质结构在线预测

AlphaFold2

Deepmind团队发布的Alphafold2是迄今为止准确度最高的蛋白质三维结构预测模型,直接颠覆了整个生物学领域。关于Alphafodl2的相关研究已经发表在nature上,其中最主要的是一篇关于Alphafold2模型的介绍:
Highly accurate protein structure prediction with AlphaFold
和一篇使用Alphafold预测人类蛋白组的文章:
Highly accurate protein structure prediction for the human proteome

查询AlphaFold2已经预测好的结构

如上所述,Deepmind团队已经使用Alphafold2预测过了人类蛋白组结构。其实除了人类蛋白组外,诸如常见的模式生物如小鼠、斑马鱼、植物中的水稻、拟南芥、微生物如大肠杆菌等的蛋白组都已经被预测过了,如果我们需要预测的蛋白结构已经被预测过了,那我们就不必做重复劳动。

用户可以通过Alphafold托管在EMBL的服务器进行查询:
AlphaFold Protein Structure Database

或者通过Uniprot查询:

通过搜索找到你想要的蛋白,然后进入详情页,跳转到Structure栏即可看到:

需要注意的是,仅部分常见物种的部分蛋白结构可以通过查询得到,更多的结构则需要自己预测

AlphaFold2源代码

Deepmind团队已经讲AlphaFold2代码公布至Github,有条件的同学可以自行下载源码并安装至服务器上进行运行
https://github.com/deepmind/alphafold


使用AlphaFold2在线预测

对于大多数做生物的同学,其实并不关心AlphaFold2的原理,也没有使用服务器的条件,只想简单方便地预测一个蛋白质的结构。那谷歌的Colaboratory也提供了在线使用版本:
直接使用谷歌搜索AlphaFlod Colab,选择第一个搜索结果即可,或使用下面的链接跳转:
https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb
进入Colab界面后,只需要输入自己想预测的序列和项目名称,即可:

运行方法也很简单,选择代码执行程序->全部运行即可
在这里插入图片描述
然后选择仍然运行

AlphaFold2参数修改

除了使用默认设定参数外,还可以根据实际需求修改部分参数,如:
Advanced settings中的number_recycles,这个参数可以理解为是每个模型的循环次数,默认是3,循环次数越多相对应的准确度也会高一点,但运行时间也会越长

每次运行所产生的模型数也可以修改:

Run Prediction中,点击显示代码即可展开代码片:

其中我们要修改的是num_moldels,直接改数字即可修改每次运行时产生的模型数。如果模型数大于5的话,最好把下面的model_order也跟着修改了,就把数字补齐到你的模型数即可。

预测结果

模型的得分高低可以在pLDDT图中看到:

置信度较高的区间则会描为蓝色,橙色和黄色则是置信度居中,红色是置信度较低。一般而言置信度较低的区域都是蛋白质本身的内在无序区(intrinsically disordered region,IDR)。这种区域一般是比较柔性的,严格来说他们本来就没有一个稳定的构象,因此预测不出来也是正常的,至于使用冷冻电镜或X射线得到的则是在某一状态下相对较稳定的构象。

预测结果会打成压缩包直接帮你下载

解压后可以得到一堆文件:

后缀名为pdb的则是蛋白三维结构的预测结果,只需要用pymol即可打开,有多个模型的话选择排名最高的的即可

预测蛋白-蛋白互作模型

其实早在AlphaFold2尚未正式推出这一功能之前,就已经有人通过简单的修改来实现这一功能了:只需用一段长linker将两个互作的蛋白连接起来,再输进AlphaFold2当成一个蛋白去预测就可以了。

若要在Colab中使用这一功能,只需要在query_sequence中输入需要预测的多个蛋白序列,蛋白与蛋白之间用英文冒号 : 分隔即可,可以用这一功能预测同源多聚体,也可以预测异源的蛋白互作。

注意:在Colab使用AlphaFold2预测蛋白有长度限制,总长度最好不要超过1000个氨基酸,若超过这一长度则很容易预测失败;使用本地服务器运行则无这一限制

### AlphaFold2 使用教程 #### 安装与配置 为了在Linux上本地安装并配置AlphaFold2,而不使用Docker容器,可以遵循以下指导。 ##### 数据库下载 运行AlphaFold2需要特定的数据库支持。这些数据库可以从多个途径获得: - **官方渠道**:访问Alphafold官方网站获取最新版本的数据资源[^1]。 - **自动化脚本辅助下载**:利用参考文献中提到的一个Python脚本来简化这一过程。 - **手动下载链接**:直接从给定的URL地址逐一下载必要的文件至本地存储设备。 ##### Conda环境搭建 建立专门用于AlphaFold2操作的Conda虚拟环境至关重要。这一步骤涉及创建新的环境以及安装一系列必需软件包: - 创建一个新的Conda环境来隔离不同项目的依赖关系。 ```bash conda create -n alphafold python=3.8 ``` - 激活新创建的环境,并开始安装各种依赖项,特别是那些不易引发冲突的基础库和可能引起麻烦的关键组件如`jax`及其扩展库`jaxlib`。 ```bash conda activate alphafold pip install numpy scipy tensorflow==2.5.0 jax jaxlib ``` ##### 获取AlphaFold2源码及相关资料 接下来是从GitHub克隆AlphaFold2项目仓库,并确保所有额外的支持性文档都被正确放置于相应位置: - 通过Git工具拉取AlphaFold2官方发布的v2.3.1版次代码库。 ```bash git clone https://github.com/deepmind/alphafold.git cd alphafold ``` - 将化学特性描述符等补充信息存入`common`子目录内以便后续调用。 #### 测试与验证 完成上述准备工作之后,应该尝试执行一些简单的测试案例以确认整个系统的正常运作状态。如果一切顺利,则表明已经具备了启动实际蛋白质结构预测工作的条件;反之则需排查可能出现的问题直至解决为止。 #### 实际应用实例 最后,在正式投入使用前还需了解具体的操作流程。通常情况下只需要调整好预设参数并通过命令行提交待处理的任务即可发起计算作业。对于初次使用者来说,建议参照提供的Shell脚本(`run_alphafold.sh`)来进行初步探索。
评论 47
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值