近年来,大语言模型 (LLM) 以其强大的自然语言处理能力席卷人工智能领域,并在生物医学研究中展现出巨大潜力。然而,LLM 经常产生事实性错误和幻觉,严重阻碍了其在医疗健康等关键领域的可靠应用。如何赋予 LLM 可靠的推理能力,使其能够准确理解和利用医学知识,成为亟待解决的关键问题。(关注公众号“赛文AI药学”,获取更多AI与药学的内容)
近期,GigaScience 期刊发表了一项题为 "Knowledge graph–based thought: a knowledge graph–enhanced LLM framework for pan-cancer question answering" 的研究 (Gigascience. 2025 Jan 6;14:giae082. doi: 10.1093/gigascience/giae082),来自中国的研究团队提出了一种名为 知识图谱引导思维 (Knowledge Graph-based Thought,KGT) 的创新框架,巧妙地将 LLM 与知识图谱 (KG) 融合,利用 KG 中结构化的医学知识增强 LLM 的推理能力,显著提高了 LLM 在泛癌问答任务中的准确性。这项研究为 LLM 在生物医学领域的应用开辟了新的道路,有望加速医学研究和临床实践的智能化进程。
一、 挑战与机遇:LLM 在生物医学领域的困境与 KG 的潜力
尽管 LLM 展现出惊人的语言理解和生成能力,但在应用于生物医学领域时,其固有的局限性逐渐暴露。
1.1 LLM 的阿喀琉斯之踵:事实性幻觉
LLM 的事实性幻觉问题主要源于其训练数据的局限性和模型本身的特性。一方面,LLM 的训练数据可能包含错误或过时的信息;另一方面,LLM 本质上是一个统计模型,它根据训练数据中的模式生成文本,而不是真正理解文本背后的含义。这导致 LLM 在回答专业问题时,容易产生看似合理但实际上错误的答案,即“幻觉”。
目前,解决 LLM 事实性幻觉主要依靠 微调 和 提示工程 两种技术:
-
微调的代价: 在特定领域的数据上微调 LLM 可以提高其准确性,但需要消耗大量的计算资源和时间,且面临灾难性遗忘的风险,即模型在学习新知识的同时会忘记旧知识。
-
提示工程的局限: 提示工程通过优化输入 LLM 的提示词来引导其输出正确答案,无需修改模型参数。然而,对于复杂的生物医学问题,简单的提示工程难以奏效,且提示词的设计高度依赖人工经验。
1.2 知识图谱的曙光:结构化知识的力量
与 LLM 的“黑盒”特性不同,知识图谱 (KG) 以结构化的形式存储着实体和它们之间的关系,为机器理解和推理提供了坚实的基础。KG 中的知识经过专家整理和验证,具有较高的准确性和可靠性。因此,将 LLM 与 KG 结合,利用 KG 的结构化知识引导 LLM 的推理过程,成为解决 LLM 事实性幻觉问题的 promising 方案。
1.3 早期尝试的局限:KGQA 的发展瓶颈
传统的知识图谱问答 (KGQA) 方法主要依赖于规则或模板,难以理解自然语言问题的复杂语义,且生成的答案缺乏流畅性和可读性。近期,一些研究尝试利用外部 KG 增强 LLM,例如 StructGPT、Think-on-Graph (ToG)、Reasoning on Graphs (RoG) 和 KG-GPT。然而,这些方法要么需要微调,要么在处理大型 KG 时效率低下,要么依赖于问题中明确提及的实体信息。特别是在生物医学领域,许多问题涉及到探索未知的关系和实体,中间实体类型往往是未知的,这使得现有的 KGQA 方法难以适用。
二、 KGT 框架:基于知识图谱模式的创新推理机制
针对现有方法的不足,KGT 框架提出了一种全新的基于知识图谱模式的推理机制。其核心思想是:不直接在庞大的事实图谱上检索信息,而是引导 LLM 在抽象的知识图谱模式上进行推理,从而高效地找到与问题相关的推理路径,并利用该路径指导后续的子图检索和答案生成。
2.1 KGT 框架的核心步骤
KGT 框架主要包括以下四个步骤:
(1) 问题分析:精准的信息提取
KGT 利用 LLM 强大的自然语言解析能力,将输入的自然语言问题分解成关键信息:
-
头实体名称: 问题中核心实体的名称。
-
尾实体类型: 问题所询问的答案的实体类型。
-
尾实体属性: 对尾实体类型的进一步限定。
例如,对于问题 “哪些药物可以治疗乳腺癌,并且是靶向治疗药物?”,LLM 可以提取出头实体名称 “乳腺癌”,尾实体类型 “药物”,尾实体属性 “靶向治疗”。
(2) 基于图模式的推理:高效的路径探索与选择
这一步是 KGT 框架的核心创新所在,它巧妙地避开了直接在庞大的事实图谱上进行低效搜索的问题。
-
构建模式图: KGT 首先构建一个基于知识图谱模式的图。该模式图仅包含实体类型和它们之间的关系类型,例如 “疾病”-“治疗”-“药物”。这种抽象表示大大简化了图的结构,缩小了搜索空间。
-
广度优先搜索 (BFS): 利用 BFS 算法,KGT 在模式图上高效地找到连接头实体类型和尾实体类型的所有最短路径。这些最短路径对应着最直接、最相关的推理路径。
-
语义相似度计算: KGT 利用 Sentence-BERT 等模型计算每个候选路径与原始问题的语义相似度,并选择语义最相关的路径作为最佳路径。
(3) 子图构建:精准检索
基于选择的最佳路径和问题中提取的关键信息,KGT 利用 LLM 生成 Cypher 查询语句,并利用该语句从知识图谱中检索包含与问题相关的所有实体和关系的子图。
(4) 推理:信息的整合与答案生成
最后,KGT 从检索到的子图中提取与问题相关的关系链,并利用 LLM 判断这些关系链是否与问题语义一致。然后,LLM 将筛选后的关系链转化为流畅、自然的答案,输出给用户。
2.2 KGT 框架的显著优势
-
无需微调: KGT 框架完全基于提示工程和上下文学习,无需对 LLM 进行微调,避免了高昂的训练成本和灾难性遗忘的风险。
-
灵活集成: KGT 可以与各种 LLM 无缝集成,具有良好的通用性和可扩展性。
-
高效推理: 基于模式图的推理机制大大提高了搜索效率,使得 KGT 能够处理大型、复杂的知识图谱。
-
针对生物医学领域的优化: KGT 能够有效处理中间实体信息缺失的问题,更符合生物医学领域的实际需求。
-
性能优异: 在新提出的泛癌问答基准 (PcQA) 上,KGT 框架显著优于现有方法,F1 分数提高了 33%,展现出强大的推理能力。
三、 PcQA 基准:生物医学 KGQA 的重要里程碑
为了客观评估 KGT 框架在生物医学领域的性能,研究团队构建了一个高质量的泛癌问答基准——PcQA。
3.1 现有 KGQA 数据集的局限性
现有的 KGQA 数据集,如 MetaQA 和 FACTKG,主要针对通用领域,缺乏生物医学领域的针对性。更重要的是,这些数据集通常提供中间实体类型的信息,而生物医学问题往往需要模型推断未知的中间实体类型。
3.2 PcQA 的构建与特点
PcQA 基于 SmartQuerier 肿瘤知识图谱 (SOKG) 构建,包含 405 个精心设计的泛癌问答数据,覆盖了癌症遗传易感性、药物治疗计划、药物重定位、潜在药物靶标的识别、耐药性研究以及癌症进展和转移的预测等多个方面。PcQA 的构建过程严谨,数据质量得到了生物医学专家的严格把关。
PcQA 的最大特点在于,其许多问题不提供中间实体类型的信息,更贴近生物医学研究的实际需求,也更具挑战性。
四、 应用案例详解:KGT 在泛癌研究中的强大应用潜力
KGT 框架在药物重定位、耐药性研究、个体化治疗和生物标志物分析等多个方面展现出强大的应用潜力。
4.1 药物重定位:发现药物的新用途
药物重定位旨在发现现有药物的新适应症,可以大大缩短药物研发的周期和成本。KGT 可以通过分析已知药物的作用靶点和疾病的关联基因,推断药物潜在的新用途。
例如,研究中提到,KGT 可以推断出卡替洛尔 (一种 ADRB1 抑制剂) 可能对血管瘤有治疗作用。这是因为 KGT 发现另一种 ADRB1 抑制剂普萘洛尔已被用于治疗血管瘤,而卡替洛尔和普萘洛尔具有相似的作用机制。这个例子表明,KGT 可以为药物重定位研究提供新的思路和线索。
4.2 耐药性研究:揭示癌症耐药机制
癌症耐药性是肿瘤治疗失败的主要原因之一。KGT 可以通过分析基因突变和药物之间的关系,帮助理解癌症的耐药机制。
例如,KGT 可以发现 ALK-p.L1196M 突变会导致胃癌对纳拉替尼耐药。这个发现可以帮助研究人员识别耐药相关的基因突变,从而指导临床治疗方案的制定,并为开发新的抗耐药药物提供靶点。
4.3 个体化治疗
KGT 可以根据患者的基因信息和疾病特征,提供个性化的治疗建议。
4.4 生物标志物分析
KGT 可以帮助识别和理解与癌症相关的生物标志物,为癌症的早期诊断和预后评估提供依据。
五、 总结与展望:KGT 的未来发展方向
KGT 框架作为一项突破性的研究,为 LLM 在生物医学领域的应用开辟了新的道路。它巧妙地将 LLM 的强大语言能力与 KG 的结构化知识相结合,解决了 LLM 的事实性幻觉问题,并在泛癌问答任务中取得了显著的成果。
未来,KGT 框架可以从以下几个方面进行拓展:
-
引入更先进的 LLM: 将 KGT 框架与更强大的 LLM (例如 GPT-4) 结合,可以进一步提升其性能。
-
扩展到其他医学知识图谱: 将 KGT 框架应用于其他医学知识图谱,例如药物知识图谱、疾病知识图谱等,可以解决更广泛的医学问题。
-
改进模糊匹配功能: 当前的 KGT 框架无法处理拼写错误,未来可以加入模糊匹配功能,提高系统的鲁棒性。
-
与实验验证相结合: 将 KGT 框架的预测结果与实验验证相结合,可以加速药物研发和疾病研究的进程。
-
开发用户友好的界面: 开发用户友好的界面,可以让更多的研究人员和医生使用 KGT 框架,促进其在临床实践中的应用。
需要强调的是,本研究目前仍处于概念验证阶段,旨在展示 KGT 框架的技术可行性和初步有效性,尚未在实际临床实践中得到验证。在任何临床或医疗决策中,始终应依赖专业医护人员的判断和指导。
总之,KGT 框架为 LLM 在生物医学领域的应用提供了新的思路和方法,有望推动医学研究和临床实践的智能化发展。随着技术的不断进步,KGT 框架及其衍生技术将在未来的医疗健康领域发挥越来越重要的作用,为人类健康事业做出更大的贡献。
关键词: 泛癌知识图谱,大语言模型 (LLM),知识图谱问答 (KGQA),提示工程,药物重定位,耐药性研究,个体化治疗,生物标志物分析
往期内容荐读:
ChatGPT 在临床药学中的有效性以及人工智能在药物治疗管理中的作用
DDI-GPT:使用知识图谱增强的大模型对药物相互作用进行可解释的预测
诺奖得主David Baker最新Science论文:药学+AI领域迎来新机遇!
AI与药学:ChatGPT与临床培训——药学博士(Pharm-D)学生的看法、担忧和实践
人工智能大模型在用药处方审核的应用潜力:一项跨 12 个临床专科的前瞻性研究
AI用于研究药物扩大适应症:大模型架起药物分子结构与适应症的桥梁
AI与药学:DrugGPT助力减少英国每年2.37亿次用药错误
CancerGPT :基于大语言模型的罕见癌症药物对协同作用少样本预测研究
AI与药学|DAPSNet:基于双重注意力机制和患者相似性的药物推荐模型
AI与药学| Nature Medicine:大模型MEDIC显著降低药店用药指导错误
AI与药学:基于大模型的多智能体药物不良事件提取系统—MALADE
FastRx:基于 Fastformer 和记忆增强图神经网络的个性化用药推荐模型
欢迎关注公众号“赛文AI药学”!
赛文AI药学,致力于探索人工智能在药学场景中的创新与应用。