目录
- ASE-Mol 模型通过识别和区分有益/有害子结构,显著提升了分子性质预测的准确性和可解释性。
- RILLIE 结合大型语言模型和逆折叠模型,实现零样本 RNA 设计,显著提高 aptamer 的体外和体内性能。
- 该研究提出“可辨识性”指标,提升医学机器学习模型解释的清晰度和用户信任度。
- 生成式 AI 时代,智能抗体设计需整合生物学专业知识、AI 工具和实践经验,以优化药物发现与开发。
- PTM-Mamba 利用创新双向门控 Mamba 架构,精准预测蛋白质翻译后修饰及其对蛋白功能的影响。
1. ASE-Mol:基于子结构感知的分子性质预测模型
ASE-Mol 引入了一种新颖的基于图神经网络 (GNN) 的混合专家 (MoE) 框架,通过 BRICS 分解动态识别和区分有益和有害的分子子结构。不同于以往统一处理所有子结构的方法,ASE-Mol 学习强调有益子结构并抑制有害子结构,从而增强了预测性能和模型可解释性。通过属性分析评估子结构对预测准确性的影响,将其分类为有益或有害基序。然后,这些基序被路由到专门的专家模型进行定制化处理。模型对有益和有害基序使用单独的路由网络。有害基序路由器通过在专家分配之前组合两种类型的基序来减弱不利贡献,从而提高了学习的鲁棒性。
ASE-Mol 在八个基准数据集(例如 BBBP、ClinTox、HIV)上的表现显著优于 TopExpert、GraphDIVE 和标准 MoE 模型等强基线模型,实现了高达 96.3% 的最先进 ROC-AUC 分数。消融研究证实,有益和有害基序路由都对性能有显著贡献。移除任何一个组件都会导致准确性显着下降。使用 t-SNE 和 BRICS 分解的视觉化分析表明,ASE-Mol 捕获了化学上有意义的子结构,例如与 BBB 渗透性相关的疏水区域,为预测提供了机制上的洞察力。与之前的基于专家的模型相比,该模型保持了具有竞争力的训练时间和内存使用量,证明了其在 GCN、GIN、GAT 和 GraphSAGE 等图主干网络上的可扩展性。ASE-Mol 的超参数敏感性分析表明调整基序粒度 (ψ) 和专家数量的重要性,表明最佳子结构选择会显着影响性能。尽管目前专注于分类任务,但 ASE-Mol 为可解释的分子建模提供了强大的基础,并且可以在未来的工作中扩展到回归设置。
2. RILLIE:零样本 RNA 设计新框架,大幅提升 aptamer 性能
研究者开发了一种名为 RILLIE 的零样本 RNA 设计框架,该框架结合了大型语言模型(LLM)AIDO.RNA 和逆折叠模型(IFM)RhoDesign,模拟自然进化过程,优化 RNA 序列以提升其体内功能,且无需任何特定任务的训练。RILLIE 通过整合 16 亿参数的 RNA LLM (AIDO.RNA) 和逆折叠模型 RhoDesign,构建了一个“专家产品”模型,能够同时优化序列和结构的适应性。
不同于传统的 SELEX 或特定任务的机器学习流程,RILLIE 在零样本设置下运行,快速生成保持自然序列语法和结构完整性,同时增强实验性能的 RNA 变体。研究者在六个不同的 DMS 数据集(包括 aptamer、tRNA 和核酶)上对 RILLIE 进行了基准测试,结果表明模型评分与实验 RNA 适应性之间存在高度相关性,其性能显著优于单独使用 RNA 或 DNA LLM。
在 Broccoli aptamer 的应用中,RILLIE 在单轮实验中生成了 20 个变体,其中超过一半的变体显示出荧光增强,B2 变体的荧光强度提高了 55%,结合亲和力提高了 2 倍,并通过活 HEK 细胞中的 FACS 进行了验证。对于 Pepper aptamer,两轮定向进化策略产生了 40 个新变体,荧光增强高达 2.6 倍,结合亲和力提高了 3 倍。超过 40% 的序列优于野生型,包括序列差异高达 75% 的高突变变体。
突变偏好分析表明,RILLIE 避免了有害的取代(例如 C5G、U19A),并倾向于在可变区域进行有益的突变,这与自然选择模式高度一致,并展现出高适应性精度。重要的是,使用 RILLIE 设计的序列在体内保持了其性能,在 HEK 细胞中表现出改进的折叠和功能——这是仅通过体外方法(如 SELEX)设计的 aptamer 所面临的主要挑战。
RILLIE 的框架可以推广到 aptamer 以外的其他 RNA 类别。该模型在预测核酶和 tRNA 的突变效应方面表现良好,为通用 RNA 工程开辟了道路。这项工作提供了第一个大规模证据,证明整合结构和序列模型可以实现可扩展的、进化引导的、任务无关的 RNA 设计,从而引领合成生物学和 RNA 疗法的范式转变。
3. 可辨识性:提升医学机器学习模型可信度
本研究引入“可辨识性”作为一种新的、用户导向的指标,用于评估医疗保健领域机器学习 (ML) 解释的清晰度。该指标量化了从用户角度来看,解释如何清晰地反映输入数据和模型输出之间的关系。一项包含 50 名参与者(生物医学和数据科学背景)的人体研究表明,解释清晰度方面的评分者间一致性较低 (ICC < 0.5),所以需要一个可靠的客观指标来补充人类判断。
研究发现,距离相关系数 (dcor) 在与参与者评估结果对齐方面优于其他 12 个测试指标,成为用户感知可辨识性的最佳统计代理,适用于合成和真实生物医学数据。结合 SHAP 等特征重要性方法使用时,可辨识性尤为有效,它不仅可以识别影响模型预测的变量,还可以识别用户能够理解的变量。作者表明,基于 dcor 的加权可辨识性可用作附加的特征选择标准,即使在 R² 分数仍然很高的情况下也能有效识别过拟合模型,可见可辨识性在性能指标之外的价值。
在对基于 NHANES 生理老化数据训练的 100 个机器学习模型(XGBoost 和 ANN)进行的测试中,可辨识性随着模型复杂性和过拟合程度的增加而持续降低,为更具可解释性和可信度的建模提供了信号。研究构建了帕累托前沿,以帮助用户选择平衡预测性能和解释清晰度的最佳模型,反映了医学机器学习流程中现实世界的决策权衡。与传统的可读性指标不同,可辨识性能够适应非单调、非线性关系,使其更适用于此类模式常见且重要的生物领域。由于可辨识性能够在不同教育水平和专业领域的用户中一致地捕捉解释清晰度,因此该方法对用户背景具有鲁棒性,支持公平透明的模型解释。
作者提倡将可辨识性整合到可解释人工智能 (XAI) 系统中,尤其是在医学等高风险领域,因为在这些领域,用户信任和监管透明度至关重要。可辨识性为弥合算法可解释性和人类理解之间的长期差距提供了一种实用解决方案,为更易于接受和解释的 AI 驱动医疗工具奠定了基础。
4. AI 赋能智能抗体设计:生物技术与经验融合
本文提出了一个在生成式 AI 时代设计智能抗体的战略框架。作者引入了候选药物靶点概况 (CDTP),它类似一份详细的动态“规格表”,概述了分子标准(例如,表位、Fc 功能、物种交叉反应性),以指导从发现到临床开发的抗体设计过程。智能抗体定义广泛,包括经典和非经典形式(例如,多特异性抗体、偶联物、融合蛋白),其机制涵盖靶向、拮抗、激动和靶点非依赖性功能,这需要超越单特异性 IgG 的新设计策略。
研究者指出了关键的转化挑战,包括对精确表位预测、亲和力优化和群体水平靶点多样性覆盖的需求。在这些领域,像 AlphaFold3 和 AIntibody 这样的生成式 AI 工具开始展现出潜力,但仍未得到充分验证。AI/ML 方法被定位为强大但并不完整的工具。虽然它们有助于加速结合剂的发现,但目前在多参数优化、候选亲和力排序以及跨抗体形式或新靶点的泛化方面仍有不足。
AI 在抗体设计中取得进展的一个主要障碍是稀疏和孤立的数据。作者强调了联邦学习(例如,用于小分子的 MELLODDY)的潜力,可以在不损害数据隐私的情况下解锁协作建模。为了解决非结构化设计问题(例如,FcRn 循环、物种交叉反应性),本文强调了在抗体发现团队中提高数据素养、标准化注释和跨学科合作的需求。
AI 设计的微型蛋白结合剂被强调为针对新靶点或低数据靶点(来自暗蛋白质组图谱和功能基因组学)的变革性解决方案,有可能解决可重复性问题和未满足的治疗需求。作者倡导强有力的基准测试计划(如 AIntibody)和通用的技术文档工作流程,以使 AI 输出与监管要求保持一致,并简化从计算机模拟设计到 IND 研究的转化。最终,在生成式 AI 时代设计“智能”抗体需要一种跨学科的思维方式,平衡算法创新与深入的生物学见解、以数据为中心的基础设施以及由实验反馈驱动的持续模型改进。
5. PTM-Mamba:首个理解蛋白修饰的语言模型
PTM-Mamba 作为首个明确设计用于编码蛋白质翻译后修饰 (PTM) 的蛋白质语言模型,采用了创新的双向门控 Mamba 架构,并融合了 ESM-2 嵌入,能够有效地表示野生型和修饰后的残基。研究者引入了包含 27 个 PTM 标记的新词汇表,该词汇表映射自 79,707 个 PTM 注释序列中的 311,000 条实验验证记录,实现了基于生物学基础的序列建模。
PTM-Mamba 的架构包含具有门控融合机制的前向和后向 Mamba 模块,结合了 ESM-2 和 PTM 特定嵌入,从而实现了更丰富的上下文感知表示。该模型在疾病关联、药物靶点预测以及 PTM 介导的蛋白质 - 蛋白质相互作用 (PPI) 影响预测方面,表现优于 ESM-2、PTM-Transformer 和结构感知的 PTM-SaProt 等强基线模型。例如,在使用 PTMint 数据进行 PPI 任务时,PTM-Mamba 在精确度、F1 值、AUROC 和 MCC 等指标上均取得了最高分,超过了基于结构和序列的模型,有效捕捉了依赖于 PTM 的相互作用动态。
此外,PTM-Mamba 支持零样本 PTM 发现,无需重新训练即可从野生型序列中预测潜在的 PTM,并在识别磷酸丝氨酸和二酰基甘油 - 半胱氨酸等生物学相关修饰方面表现出色。嵌入分析表明,PTM-Mamba 通过空间聚类区分 PTM 类型,并保留了野生型和修饰对的上下文相似性,验证了其建模 PTM 特定功能效应的能力。值得注意的是,该模型在标准的位点级 PTM 预测任务(例如磷酸化、非组蛋白乙酰化)中保持了高性能,同时针对序列级下游应用进行了优化。PTM-Mamba 使用自适应掩蔽策略在掩蔽语言建模上进行了高效训练,使用 8xA100 GPU 系统,并且显示出比基于 Transformer 的基线模型更快的收敛速度。
该模型及其预处理工具包完全开源,并已集成到 HuggingFace 和 GitHub 中,为 PTM 感知的蛋白质组学和治疗建模提供了一个可扩展的模块化平台。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。