研究背景 药物研发是一项复杂且耗时的工作,传统模式主要依赖研发人员的经验积累与反复试错。以大规模语言模型和生成式人工智能为代表的新一代人工智能技术,正在重塑这一传统范式。人工智能驱动的研究方法已显著提升了药物研发流程的研发效率和成效。中国温州医科大学、MedComm-Future Medicine主编张康教授,及四川大学杨胜勇教授带领的研究团队在国际顶级期刊**《Nature Medicine》上发表了一篇题为“Artificial intelligence in drug development”**的综述文章,系统探讨了人工智能 (AI) 技术在药物研发全链条中的最新应用进展,涵盖疾病靶点确定、药物发现、临床前研究、临床试验及上市后监测等关键环节 (图1),并对当前面临的主要挑战进行批判性审视,以期为人工智能赋能药物研发的未来发展方向提供参考。图1 AI技术在药物研发各个环节的应用价值,包括复杂生物系统分析、疾病标志物识别、药物靶点筛选、药物与靶点互作模拟、药物安全性和有效性预测,以及临床试验管理等方面[1]研究内容
1.人工智能驱动的药物发现
1.1 靶点鉴定在药物研发中,小分子靶点的精准识别是核心挑战之一。传统靶点发现方法受限于效率瓶颈,而AI技术的突破为这一领域提供了创新解决方案。AI通过整合基因组、转录组和蛋白质组等多组学数据,构建复杂的生物网络模型,解析疾病相关的分子相互作用模式,从而高效筛选潜在药物靶点。例如,自然语言处理 (NLP) 技术可将基因功能映射至高维语义空间,增强靶点预测的灵敏性;图深度学习 (Graph Deep Learning) 则通过拓扑结构与深度学习的结合,精准挖掘候选靶点的关联特征。典型案例如PandaOmics平台,其通过多组学数据与生物网络分析,成功鉴定出 TRAF2 与 NCK 相互作用激酶作为抗纤维化治疗的新靶点,并加速抑制剂 INS018_055 的开发进程。尽管多组学数据融合与模型可解释性仍面临挑战,AI技术已展现出在复杂真实数据中高效识别新靶点的潜力,有望大幅提升靶点发现的成功率。1.2 虚拟筛选虚拟筛选是识别潜在先导化合物或药物候选物的关键策略。随着化合物库规模的指数级增长,AI技术的应用需求显著增加,以应对超大型化合物库的高效筛选挑战。AI技术能够通过预测配体的空间构象变换直接生成原子级精度的三维坐标,以及学习受体-配体结合距离的概率分布,精准模拟分子结合模式。此外,基于序列信息的深度学习模型可构建受体-配体共折叠网络,直接预测复杂结构的相互作用界面,展现出强大的潜力。然而,现有模型因物理约束条件(如分子力场与溶剂化效应)学习不足,可能导致生成非物理性配体构象,需通过后处理算法优化对接构象的合理性。尽管如此,AI技术通过高通量筛选与智能构象优化,为药物发现提供了全新的加速路径,显著缩短了候选物从虚拟设计到实验验证的周期。1.3 从头设计在药物研发领域,从头设计 (de novo design) 旨在自主构建具有特定分子特征的全新化学结构。传统方法(如基于结构、配体或药效团的设计)依赖人工操作与专家经验,流程繁琐且规则明确。随着AI技术,尤其是深度学习的突破,自动化生成新型分子结构成为可能,为药物研发提供了创新路径。深度学习驱动的从头设计中(图2),分子生成是关键,主要采用化学语言模型或基于图的模型。化学语言模型将分子生成转化为序列生成问题,如通过SMILES字符串表征分子结构。尽管需要大规模预训练且可能生成无效序列,但可通过概率筛选与自我纠错优化结果。基于图的模型以拓扑图表征分子,通过自回归或非自回归策略生成结构,但自回归策略易产生不合理中间产物,非自回归策略则面临分子图有效性验证的挑战。由于类药性化学空间维度极高,从头设计需依赖评分函数优化机制,通过评估分子与已知活性化合物的相似性、预测生物活性等指标,引导设计过程向目标特征收敛。强化学习被广泛应用于迭代优化,但其有效性受限于评分函数的设计挑战:合成可行性与类药性等目标难以直接量化,可能导致模型偏离预期方向。例如,过度优化合成可行性可能牺牲结构新颖性。此外,引入多维约束条件可提升靶向性设计,通过整合基因表达特征、药效团模型、蛋白质结构信息及结合亲和力等参数,AI模型能生成具有潜在活性的候选分子。以PocketFlow 模型为例,其基于靶标蛋白口袋生成的化合物已通过实验验证。然而,限制化学支架或片段可能导致化学多样性不足,影响后续开发潜力。因此,如何在定向生成与多样性探索间取得平衡,是未来研究的重要方向。********图2 药物研发中人工智能驱动的分子生成流程****************[1]*************1.4 ADMETADMET(吸收、分布、代谢、排泄和毒性)特性是评估药物安全性与有效性的核心指标。尽管药物上市审批仍需依赖实验室验证,但早期AI驱动的 ADMET 预测能显著降低因药物特性缺陷导致的研发失败风险。当前,AI技术已成为该领域的重要工具,其优势在于从分子结构数据(如SMILES字符串或分子图)中自动提取高维特征并建立预测模型。深度学习技术(如Transformer、卷积神经网络和图神经网络)的引入进一步推动了ADMET预测的精度提升。例如,SMILES字符串虽能简洁表征分子结构,但难以捕捉拓扑信息;而图神经网络(如GeoGNN)通过融合分子几何特征,在ADMET性质预测中展现出更优性能。尽管新型深度学习算法带来了进步,这一领域仍面临挑战,如标记数据稀缺导致的潜在过拟合问题,以及分子表征对于AI性能的重要性。此外,模型的可解释性也是一个主要挑战。1.5 合成规划与药物发现的自动化合成化学合成是小分子药物发现的瓶颈之一,计算机辅助合成规划 (Computer-Assisted Synthesis Planning, CASP) 和有机化合物自动合成可减轻化学家的重复性劳动负担,推动药物研发进程。随着 AI 的快速发展,制药行业和学术界越来越关注该过程的智能化与自动化。CASP通过逆合成算法将目标分子逆向拆解为简单前体(图3),显著提升合成路线设计效率;自动化合成平台则通过流动化学等技术实现化合物高效制备。传统CASP系统受限于人工规则库,而深度学习模型大幅提升了合成预测精度。当前Transformer架构已成功应用于区域选择性预测、反应指纹提取等复杂任务。与此同时,自动化合成技术(如流动化学与固相合成)的革新,为药物化合物的高效合成开辟了新途径。通过将AI与上述技术整合,设计-制造-测试-分析 (Design-Make-Test-Analyze, DMTA) 循环得以优化,从而显著提升药物发现效率。例如,基于深度学习的 AI 驱动DMTA平台结合微流控技术,已实现肝脏X受体激动剂的从头合成。然而,当前自动化合成与DMTA循环仍处于发展初期,需攻克多项技术难题,包括固相形成效率提升、溶解性精准预测、纯化方法优化以及多步反应路径设计等挑战。
********图3 (a) 计算机辅助合成规划的工作原理:通过“逆向思维”的方式,将复杂的目标分子逐步拆解成更简单的原料分子,就像解拼图一样,找出最合适的合成路线;(b) 有机化合物自动化合成的前沿技术****************[1]*************在规划和合成新的药物化合物之后,AI技术为新药的作用机制 (MOA) 的体内验证提供了便利。在高通量筛选中,通过监测组学数据的实时变化,AI技术可以概括这些特征,并开发一个能够破译新化合物的分子和细胞MOA及其相关的药代动力学、药效学、毒理学和生物利用度特性的模型(图4)。
********图4 使用高内涵筛选 (high content screening) 和多组学数据 (multiomics data) 进行AI驱动的作用机制预测。(a) 高内涵筛选,在高内涵筛选中,细胞被培养在多孔板中,并分别处理具有已知作用机制 (MOA) 或信号通路的多种药物(上图),同时在不同孔中引入全基因组范围的基因表达干扰(下图)。(b) 数据整合与模型训练,在每个孔中,多组学特征、标记染色模式及细胞形态特征随时间的变化数据与相应药物作用机制或基因信号通路变化的知识相结合,用于训练AI模型,以理解每种药物对细胞网络的影响。© 预测能力,该AI模型能够预测具有类似多组学和细胞形态特征的新化合物的作用机制 (MOA)****** **********[1]****************
2.人工智能在临床试验和实际应用中的作用** **2.1 生物标志物的发现*生物标志物在医学、生物技术和生物制药领域意义重大,可衡量生理病理过程和治疗反应。但传统基于假设驱动的生物标志物发现方法效率低,难以应对疾病复杂性。AI技术通过多源数据整合与模式识别技术,成功构建了诊断、预后及预测性标志物的精准识别体系。在诊断标志物识别方面,"nuclei.io"数字病理框架创新性地融合主动学习算法与实时人机交互机制,显著提升了病理诊断的准确性与效率;在预后评估领域,深度学习模型通过分析CD8+ T细胞形态特征预测脓毒症患者预后,而图神经网络技术则可对癌症风险群体进行高精度分层。此外,AI在药物开发中通过整合多模态数据(如蛋白质相互作用网络与医学影像数据),不仅能够预测患者治疗响应,还可挖掘新型生物标志物以优化药物设计。尽管AI技术展现出显著优势,其应用仍面临多重挑战:数据异质性导致模型泛化能力受限,算法可解释性不足影响临床信任度,以及潜在的数据偏差可能引发误判。为解决这些问题,需结合群体学习技术整合多样化人群数据,并通过开发透明化算法框架与严格的多中心验证流程,提升模型的稳健性与临床适用性。****2.2** **预测药物计量学特性*****AI与大数据技术在药物计量学领域展现出显著的应用潜力,尤其在处理高维数据及非线性风险函数关系等复杂问题中表现优异。通过优化剂量-反应模型、提升药物安全性评估精度及完善治疗窗口设计,AI技术为个性化治疗提供了有力支持,进而推动精准医学的发展。例如,基于机器学习的分析方法可识别小分子激酶与不良事件之间的新型关联对,从而降低临床风险并促进更安全激酶抑制剂的开发。多组学变分自动编码器(MOVE)框架通过整合基因组、代谢组等多维度数据,系统解析药物相互作用机制(如二甲双胍与肠道菌群的互作关系),并对比不同组学模式下的药物响应差异。此外,领域专用语言模型PharmBERT能够从药物说明书中高效提取药代动力学关键参数,辅助预测不良反应及药物间相互作用风险。AI技术还可通过分析患者遗传特征、生理指标及治疗历史数据,生成个性化剂量调整方案,从而优化疗效并提升精准医疗的临床实践水平。**2.3 药物再利用(老药新用)***药物再利用是指发现已批准药物的新治疗用途,AI在这一领域发挥着重要作用,能显著缩短研发时间并降低成本。例如,在新冠疫情期间,AI通过分析电子健康记录和保险索赔等真实世界数据,有效识别出可能改善患者预后的药物组合,加速了药物再利用进程。AI可利用真实世界数据(如电子健康记录、保险索赔数据等)模拟临床试验,挖掘潜在药物候选物。有研究运用深度学习递归神经网络分析医疗索赔数据库,成功识别出针对冠状动脉疾病的有效药物及组合。此外,将深度学习应用于组学数据,依据药物在体外诱导的转录扰动对药物进行分类,进而发现药物的新适应症。然而,AI在药物再利用中的应用面临诸多挑战,如数据质量参差不齐、模型可解释性和泛化能力不足、验证成本高昂、监管障碍、与现有研发流程整合困难以及计算需求过大等问题,这些都限制了AI药物再利用的广泛应用和实际效果。**2.4 提高****试验效率和预测结果***AI在临床试验中展现重要价值,可优化试验设计、加速患者招募并预测治疗反应,从而提升试验效率与成功率,同时降低成本、缩短周期。通过整合多模态数据,AI能生成分子前导物,并运用深度强化学习开发可专利的类似物进行测试。此外,AI可预测I/II期临床试验结果,评估不良反应和路径激活,提高预测精度,识别药物组合风险。在真实世界研究中,AI能分析电子健康记录、保险索赔和可穿戴设备数据,评估药物有效性与安全性(图5)。然而,AI在临床试验中的应用仍面临计算成本高、工作流程整合复杂、伦理问题和个性化程度有限等挑战。********图5 AI可以通过分析电子病历、保险理赔数据和智能可穿戴设备收集的健康数据来评估药物的效果和安全性。例如,研究人员开发的Trial Pathfinder工具分析了超过6万名晚期肺癌患者的电子病历,发现如果适当放宽临床试验的入选标准,不仅可以让更多患者有机会参与试验,还能获得更好的治疗效果****************[1]****************
********3.********** *面临的挑战**
*AI在药物研发领域虽取得一定进展,但尚未有AI开发的药物进入临床试验第三阶段,凸显了药物研发的复杂性。高昂的数据采集成本、隐私法规和数据共享限制,尤其在罕见病和新靶点研究中,导致训练数据不足。此外,现有数据常存在缺失、错误和偏倚问题。药物设计中,平衡药物性、合成性与结构新颖性等多个目标极具挑战,且缺乏标准化评估流程。某些靶点(如无序蛋白和转录因子)缺乏适当的结合位点,增加了AI应用的难度。许多AI算法需针对药物开发进行调整,高计算成本也限制了中小型团队的应用。AI模型透明度较低,难以获得药物开发者和监管机构的信任。********4.********** *未来的方向**
*
AI正在通过解析复杂的多组学生物医学数据,提取关键信息、识别新型生物标志物、发现治疗靶点与病理异常,从而革新药物研发范式,显著提升先导化合物与候选药物的筛选效率。此外,AI技术可加速药物发现、老药新用评估及毒性预测,显著缩短研发周期并降低安全风险与开发成本。然而,该领域仍面临数据异质性、算法可解释性不足等关键挑战,制约着AI技术的全面应用。
未来需着力构建标准化生物医学数据库,开发面向稀疏数据的AI算法与多模态预训练框架,以提升小样本学习效能。通过整合基因组学、转录组学等多维度数据,可系统解析生物网络的动态关联,推动精准药物研发。将生物物理规律嵌入AI模型架构,可增强算法在跨场景应用中的泛化能力。增强模型可解释性以建立临床信任体系,助力研发投资的风险评估与资源优化配置。与云计算平台协同开发分布式学习算法,突破大规模生物计算的效能瓶颈。基于AI的虚拟患者模型可优化临床试验方案设计,并为个体化治疗提供决策支持。AI驱动的智能化药物研发体系正在形成,将持续推动医药创新进程,为人类健康管理开辟新范式。总结总体而言,人工智能技术的持续突破正显著提升药物研发的效率和成本效益。但需清醒认识到,AI并非万能工具。其核心优势在于解析海量复杂数据并加速决策进程,本质上是对人类功能的延伸与能力增强,而非取代人类的创造性思维与专业权威。值得注意的是,AI设计的药物分子及预测结果仍需通过湿实验室验证,同时人类专家的战略指导仍是确定AI研究方向的关键。随着AI能力的迭代升级与技术进步(如近期开源的AlphaFold3),我们对其在加速药物研发和改善人类健康方面的潜力可持审慎乐观态度。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。