人工智能的飞速发展为生物学研究带来了深远影响,其中,AlphaFold2在蛋白质结构预测领域引发了革命性的突破。本文评估了AlphaFold2对GPCR结构预测的可靠性,发现其虽能准确捕捉GPCR整体骨架的主要特征,但在胞外域与跨膜域的组装、配体结合口袋的形状以及信号传导界面的构象等方面,与实验解析的高分辨率结构存在显著差异。这些差异限制了其在GPCR功能研究和基于结构的药物设计中的应用能力。因此,AI结构预测尚不能完全取代实验结构生物学,需要联合使用以辅助药理学研究和药物设计。
1 AlphaFold与结构生物学
近年来,人工智能(artificial intelligence,AI)以惊人的速度发展,改变了我们生活和科学研究的许多方面。2024年诺贝尔物理学奖和化学奖双双花落“AI”领域,物理学奖突出“科学如何应用于AI,改变AI”,而化学奖突出“AI如何改变科学和人们的认知”。本文将探讨获得2024年诺贝尔化学奖的蛋白质结构预测工具AlphaFold和传统的结构生物学方法的对比。
AlphaFold是由DeepMind开发的AI模型,能够根据蛋白质的氨基酸序列预测其三维结构。蛋白质就像是生命体内的小机器,它们的结构决定了功能。了解蛋白质的结构对于药物研发和理解生命过程非常重要。AlphaFold的出现,让人们看到了快速预测蛋白质结构的可能性。
截至目前,AlphaFold的3个主要版本分别是AlphaFold1、AlphaFold2和AlphaFold3,各自代表了从基础探索,到高精度预测和复合体建模的逐步演进(表1)。
表1 3代AlphaFold的核心差异对比
传统上,结构生物学使用实验手段来解析蛋白质的三维结构,主要的方法有以下几种:
-
X射线晶体学:是最早且最常用的方法。研究者需要首先让蛋白质形成晶体,然后用X射线照射这些晶体,得到衍射图样。通过解析这些图样计算出蛋白质的三维结构。但这一过程非常复杂,需要大量的时间和精力,尤其是培养出合适的蛋白质晶体并不容易,并且某些蛋白质无法在任何条件下结晶,这限制了晶体学对蛋白结构的研究。
-
核磁共振(NMR):这种方法利用了原子核在磁场中的特性。研究者将蛋白质溶解在溶液中,放入强大的磁场中,然后测量原子核的信号。通过这些信号,可以推断出蛋白质的结构和动态信息。但NMR适用于研究小型蛋白质,对于分子量较大的蛋白复合体并不适用。
-
冷冻电子显微学(Cryo-EM):这是近年来迅速发展的技术,将蛋白质快速冷冻保持天然状态,在电子显微镜下观察。总体上精度不如晶体学研究,仅部分结构达到近原子分辨率。适合研究大型蛋白质复合物,不过设备昂贵,操作要求高。
这些传统方法虽精确可靠,但过程繁琐、耗时耗力,需要丰富经验和技术支持。AlphaFold出现后,有人思考传统实验方法是否还有必要。实际上,AlphaFold存在局限性,如对蛋白质动态变化预测能力有限,预测复合物结构仍面临挑战,其预测结果常需实验确认。
笔者对比了AlphaFold预测的G蛋白偶联受体(GPCR)结构与实验解析结果,发现AI预测虽有一定准确性,但关键细节存在差异,会影响药物设计和功能研究。AlphaFold是重要工具,但不能完全取代传统结构生物学方法,实验验证依旧是理解生命奥秘的关键。
2 GPCR的奥秘与AlphaFold2
GPCR,是一种通过G蛋白传导信号的受体,广泛表达于细胞膜表面,负责将胞外信号传递到细胞内部。人类能看到东西、闻到味道,甚至感受到情绪波动,如开心和难过,GPCR都在其中扮演着关键角色。正因如此,它成为了现代药物设计中最重要的靶点之一,食品药品监督管理局(FDA)批准药物中约有三分之一都作用于GPCR,其年销售额甚至超过1万亿美元。
尽管GPCR的重要性不言而喻,但由于其高度复杂的结构和在激活时产生的显著动态变化(图1),解析GPCR的高分辨率结构一直是生物学上的重大挑战。传统的X射线晶体学技术和近年来兴起的Cryo-EM技术虽然取得了一些突破,但获得高分辨率的GPCR结构仍然是一个耗时且成本高昂的过程。这一技术瓶颈限制了我们对GPCR功能的深入理解,也在新药开发中形成了障碍。
图1 GPCR的激活机制,红圈表示激活过程中发生主要变化的跨膜螺旋6
AlphaFold2为GPCR结构预测带来突破,在蛋白质结构预测竞赛中表现出色,预测效果接近实验精度,为GPCR相关研究提供了有力工具。但它在取代传统结构生物学方法方面仍存在局限。本文选取了AlphaFold2发表后的29个GPCR结构,使用AlphaFold2折叠了它们的预测模型,并进行了和实验结构的比较和评测。由于这些蛋白不在训练集中,这排除了AlphaFold2预测时参考训练集数据的可能。
3 整体结构区别:AlpahFold2是个好导航,但可以更好
在细胞生物学的世界里,蛋白质就像一台复杂的机器,GPCR则像传递外界信号的特工,AlphaFold2则是高科技的导航系统,能够预测这些特工的“路线”。GPCR由7段跨膜螺旋组成,AlphaFold2在捕捉其整体布局上表现不错,评测的蛋白整体均方根偏差(RMSD)为1.64Å,体现出较高精确度。
不过,当GPCR带上大型细胞外结构(ECD)时,AlphaFold2的预测误差通常会增大。因为ECD和跨膜区域(TMD)之间的相对位置预测不够准确,如结合了semaglutide的胰高血糖素样肽-1受体(GLP1R),整体误差达3.92Å。在甲状旁腺激素2受体(PTH2R)和激活态的黄体生成素/绒毛膜促性腺激素受体(LHCGR)中,也出现整体RMSD大于分开计算的RMSD的情况。对于在训练集中不常见的失活态LHCGR,整体RMSD竟然达到了6.08Å,差异极大(见图2)。
图2 具有大型胞外结构域的预测模型和实际结构对比,提供了分开对齐和整体对齐的RMSD
4 关键药物作用位点:AlphaFold2无法指引重要路口的方向
GPCR类似繁忙的城市中心,小分子药物像寻找关键交汇点(正构位点)的游客。准确了解正构位点结构对基于结构的药物设计和功能研究至关重要。
本文评估的29个GPCR结构中有4个是与小分子配体结合的受体。结果显示,AlphaFold2预测的GPCR主链结构与实验数据相似(平均主链RMSD仅为0.89Å),但关键残基侧链差异显著,侧链RMSD高达1.90Å,整体原子RMSD为1.52Å。使用基于AlphaFold2预测结构的分子对接评估发现,大部分对接不能重现结果(见图3)。
图3 AlphaFold2预测模型和电镜结构在小分子配体口袋上的对比
例如在5-羟色胺1F受体(5HT1FR)案例中,AlphaFold2预测的侧链排列出现偏差,阻碍了三氟苯环与H176ECL2的相互作用,导致分子对接生成的小分子结合姿态与实验结构差异大,RMSD达到7.15Å。在褪黑素受体1A(MT1R)案例中,F1965.47侧链向外“偏航”,导致对接后的小分子朝着TM螺旋束中心移动,RMSD为4.79Å。在LHCGR案例中,F515ECL2侧链改变了顶部“交叉口”环境,小分子配体无法成功被对接。虽然在2型辅助T细胞上表达的趋化受体同源分子(CRTH2)案例中,预测模型与实验结构在正构位点高度一致,对接结果也几乎完全吻合,但这种理想情况并非普遍存在。
5 TM6-TM7:复杂多变的导航路线,AlphaFold2往往难以把握
在GPCR的世界中,TM6和TM7这2段跨膜螺旋就像是细胞信号传递中的关键“交通枢纽”,会根据需要进行动态调整,为重要的下游信号分子(如G蛋白等)提供畅通的“通行路径”。然而,实验结构和预测模型在这些关键“路段”上往往存在显著差异,AlphaFold2在预测这些变化时也确实面临挑战,相关结果在图4中展示。
图4 AlphaFold2预测模型和电镜结构在胞外关键激活螺旋上的对比
研究发现,有些GPCR在预测模型中的TM6-TM7构象与实验结果有较大出入,误差超过了2Å。例如,在ghrelin受体和抗利尿激素受体(V2R)的“地图”中,这些关键“路段”的偏差分别达到了3.08Å和2.83Å。在GLP1R和PTH2R的模型中,TM6和TM7被预测为“向上抬升”,影响小分子无法正确“到达”结合位点。
同样地,细胞内区域的情况也值得关注(图5)。通过测量TM6的开启程度,我们可以了解这些GPCR在细胞内侧为蛋白结合伙伴预留的“通行空间”有多大。有趣的是,不同类型的GPCR在预测模型中预留的“空间”差异明显。对于没有结合G蛋白的A类GPCR,预测结构中预留的“空间”比实验结构更多。而对于已经结合了G蛋白的A类GPCR,预测结构中预留的“空间”却更少。B1类GPCR的预测模型与实验结构几乎一致,可能是训练数据中激活态B类GPCR结构较多。此外,某些A类GPCR的胞内环区3(ICL3)在预测模型中与实验结构差异大,如5HT1FR和胆囊收缩素受体1(CCKAR)。
图5 AlphaFold2预测模型和电镜结构在胞内关键激活螺旋(TM6)上的对比
6 蛋白结构预测的误差:为什么AlphaFold2有时会“迷路”?
AlphaFold2预测GPCR结构时,在某些关键区域会出现误差。如在GLP1R案例中,预测的ECD-TMD结构阻碍了肽的结合,可能是训练过程中缺乏配体信息,无法准确重现有利于肽结合的特定ECD-TMD构象。
预测与小分子结合的GPCR结构时,虽主链预测准确度约1Å左右,但预测与配体相互作用的“结合口袋”结构时仍面临挑战。更糟糕的是,在LHCGR案例中,预测模型甚至未形成适合小分子对接的“停靠点”。
对于TM6螺旋的预测,AlphaFold2似乎倾向于产生一种介于激活态和非激活态之间的“平均”构象。此外,ICL3区域的预测也常常出现过长的螺旋结构,而在实验结构中,这些区域通常是灵活多变的。这可能是因为AlphaFold2从包含骨限制性干扰素诱导跨膜蛋白样(BRIL)融合蛋白的非天然GPCR结构中学习,导致了偏差。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。