摘要
这篇论文介绍了一个基于LLM(大型语言模型)的知识综合和科学推理框架,名为BioLunar,用于支持生物医学发现,特别是在肿瘤学中的生物标志物发现。
这篇论文展示了基于LLM的科学工作流框架BioLunar,支持专门的基因分析,特别是在肿瘤学和基因富集方面。该框架通过整合外部数据库、外部工具和上下文化的语言推理链,简化并自动化了复杂的分析过程。研究表明,LLM可以在生物医学环境中实现高度专业化的端到端分析工作流,支持异构证据的整合和结论的综合,同时记录和链接到数据源。
这篇论文为生物医学发现提供了一种新的方法,展示了LLM在复杂科学推理中的潜力。
核心速览
研究背景
-
研究问题:这篇文章要解决的问题是如何利用大型语言模型(LLMs)来支持生物医学发现,特别是肿瘤学中的生物标志物发现。
-
研究难点:该问题的研究难点包括:协调控制体内/体外干预、复杂的多步骤数据分析管道以及在前人证据的背景下解释结果;整合和融合分布式证据空间和工具;以及在低代码环境中实现复杂的科学工作流。
-
相关工作:该问题的研究相关工作包括Galaxy、Snakemake和Nextflow等科学工作流管理系统,这些系统主要用于系统化生物信息学分析过程,但在整合LLMs和外部数据库方面存在不足。
研究方法
这篇论文提出了BioLunar,一个基于Lu-nar框架的工具,用于支持生物学分析,特别是肿瘤学中的分子级证据富集。具体来说,
-
集成LLMs:BioLunar通过标准化的API组件创建基于LLMs的生物医学科学工作流。LLMs可以整合和推理分布式证据空间和工具,降低跨多个结构化数据库和文本基础(如PubMed)访问和推理的障碍。
-
模块化设计:平台采用模块化设计,包含可重用的数据访问和数据分析组件,以及低代码用户界面,使所有编程水平的研究人员都能构建LLM启用的科学工作流。
-
自然语言推理(NLI):BioLunar利用自然语言推理(NLI)组件通过LLMs整合和调和证据空间,解释结果,生成全面的基因集输入摘要。
-
子工作流组件:子工作流组件允许在另一个工作流中重用现有工作流,简化了更复杂工作流的组合,避免了定义相同任务的重复步骤。
实验设计
-
数据收集:BioLunar集成了多种与精准肿瘤学相关的知识库,包括CIViC4、OncoKB5、Gene Ontology、Hu-man Protein Atlas、COSMIC、KEGG、Reactome和WikiPathways等。
-
实验设计:实验设计包括一个示例生物医学工作流,旨在整合生物信息学管道结果的证据并推断结论。具体步骤包括查询专家知识库、使用NLI组件整合和调和证据空间、生成全面摘要。
-
样本选择:实验中使用了两种不同场景的样本,每种场景产生了一组不同的基因,分别来自不同的生物信息学分析。
-
参数配置:用户可以通过拖放功能从功能分组类别中选择和排列组件,或使用Python或R脚本创建自定义组件。
结果与分析
- 场景1:在探索HER2低表达乳腺癌的独特分子特征时,报告显示了识别到的基因组改变和基因组特征,包括ERBB2扩增、PIK3CA和ESR1突变,这些是乳腺癌治疗中的重要生物标志物。对于其余两个基因,发现了新的显著突变基因,并在临床实践中有预实验证据表明其具有可操作性。
- 场景2:在发现可能导致更准确乳腺癌诊断的新基因时,报告显示了DIXDC1、DUSP6、PDK4、CXCL12、IRF7、ITGA7、NEK2、NR3C1等基因。这些基因中没有致癌基因,其中两个是潜在的药物靶点,一个是FDA批准的药物靶点。根据KEGG富集分析,这些基因主要通过几个信号通路富集,包括肿瘤坏死因子(TNF)信号通路。
总体结论
这篇论文展示了基于LLMs的科学工作流在支持肿瘤学和基因富集分析中的应用。BioLunar通过集成外部数据库、外部工具和上下文化LLM解释链,简化了复杂分析过程的自动化和整合。研究表明,LLMs可以在可重复的方式下启用复杂的端到端高度专业化的分析工作流,支持异构证据的整合、结论的综合,并在综合输出报告中记录和链接数据源。该工作流基于低代码范式,使领域专家无论其编程技能如何,都能构建和利用生成式AI方法启用的科学工作流。
论文评价
优点与创新
-
集成Large Language Models (LLMs): BioLunar利用LLMs来促进跨分布式证据空间的复杂科学推理,增强了在异构数据源之间进行协调和推理的能力。
-
模块化设计: 平台采用模块化设计,重用数据访问和数据分析组件,并提供了低代码用户界面,使所有编程水平的研究人员都能构建LLM启用的科学工作流程。
-
自动科学发现: 通过自动化科学发现和从异构证据中进行推理,BioLunar展示了LLMs、专门数据库和生物医学工具集成的潜力,以支持专家级别的知识综合和发现。
-
用户界面: 用户界面通过拖放功能组件,简化了工作流程的构建,支持单独执行、编辑或配置调整。
-
知识库集成: 当前框架集成了多种与精准肿瘤学相关的知识库,如CIViC、OncoKB、Gene Ontology等,提供了丰富的背景知识和专业分析工具。
-
子工作流程组件: 支持在另一个工作流程中重用现有工作流程,简化了更复杂工作流程的构建,避免了重复定义相同任务。
-
报告生成: 生成的报告包含研究背景、分析细节、日期和软件版本,并配有超链接以便于导航。
-
可扩展性: 系统架构支持轻松扩展,添加分支和组件而不影响现有工作流程,便于根据需求进行定制。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。