特定领域的模型微调是否有意义?BioRAG,一个大型 RAG 实际应用案例告诉您

BioRAG: A RAG-LLM Framework for Biological Question Reasoning

生命科学领域的问答系统面临快速发现、见解演变及知识实体复杂交互的挑战,需维护全面知识库与精准检索。为此,我们推出 BioRAG,结合大型语言模型的检索增强生成框架。首先,我们解析、索引并分割 2200 万篇论文,构建基础知识库,并训练特定领域嵌入模型。通过融入领域知识层次,我们优化向量检索,解析查询与上下文间复杂关系。对于时效性强的查询,BioRAG 拆解问题,借助搜索引擎进行迭代检索与推理。实验证明,BioRAG 在多项生命科学问答任务中表现卓越,超越了微调 LLM、集成搜索引擎的 LLM 及其他科学 RAG 框架。

https://arxiv.org/abs/2408.01107


今天这篇文章介绍的是一个生物学大型知识推理系统,虽然这个系统介绍的是生物学领域的,但是这个思路是可以拓展到其他领域的大型知识推理系统建设的。

1. 生物学大型知识推理系统的现状和问题

生物学领域的大型知识推理系统可分为两个主流(如上图(a-b)所示)。

  • • 微调语言模型:例如 bioBERT、sciBERT 以及针对特定领域定制的大型语言模型,如 PMC-Llama 和 Llava-med 等。这些模型基于特定领域的语料库进行训练,从而在模型中嵌入了深厚的领域知识。不过,嵌入的知识可能不完整,而且更新时计算成本较高

  • • 检索增强生成方法:遵循信息索引和检索、信息增强及答案生成的模式。比如,PGRA 采用检索器进行搜索和重新排序上下文,然后生成答案。后续研究致力于通过利用先前答案优化检索过程、通过迭代反馈循环增强模型功能,或者借助搜索引擎扩展知识库以纳入最新信息等方式来改进这些系统。尽管基于 RAG 的方法解决了信息更新的问题,但往往忽略了生物学领域知识中固有的复杂细节。

基于上述讨论,总结了构建高效生物学问题推理系统的三个挑战:

  • • 高质量的特定领域语料库稀缺。尽管生物研究方面的出版物丰富,但在构建强大的信息索引模型时,广泛且高质量的数据集仍严重匮乏。

  • • 生物知识系统固有的复杂性。这种复杂性因现代生物学研究的跨学科特性而更加突出。因此,自动化的问题推理系统必须能够理解和处理多方面且往往模糊不清的生物查询。

  • • 知识的持续更新。生物学是一个动态的领域,新发现层出不穷,现有的理论也时常被修订或取代。这种动态变化要求问题推理系统能够娴熟地从数据库或当下的搜索引擎中选取知识源,以反映出正确的科学认知。

为应对上述挑战,作者提出了 BioRAG:一个与大型语言模型相集成的新型检索增强生成框架,用于生物问题推理。

2. 什么是 BioRAG

首先对生物领域的大量研究文章进行解析、索引和分割,并构建高质量的训练语料库。

接着通过将预先构建的研究层级结构与嵌入模型相结合,以实现准确的上下文检索。

为应对新兴的生物学知识,BioRAG 能够从搜索引擎、现有的特定领域工具或已索引的研究文章中自适应地选择知识源。

一旦框架判定已收集到足够的信息,它将依据推理材料生成答案。

2.1 内部生物信息源

在生物问答系统中,高质量的特定领域语料库对于丰富信息源和增强嵌入模型至关重要。

为达成此目标,从国家生物技术信息中心(NCBI)维护的全球生物医学文章数据库中提取研究论文。汇集了自 20 世纪 50 年代至今超过 3700 万篇科学引文和摘要,涵盖了临床医学、分子生物学等广泛的生物医学领域。

  • • 本地数据准备:下载了超 3700 万篇原始论文,随后从中筛选出 1400 万篇质量欠佳的条目。使用 Unstructured 工具(https://github.com/Unstructured-IO )对这些文本进行预处理,该工具专为有效摄取和处理非结构化文本数据而设计。过滤流程包括运用正则表达式技术去除乱码,以及排除超链接、图表、表格和其他嵌入标签等非语义内容。这一精细的过程生成了一个包含 22,371,343 篇高质量、已处理的 PubMed 摘要的语料库。

  • • 信息索引:为进一步优化针对特定生物问题摘要的检索性能,在 BioRAG 框架内开发了一个专门的生物嵌入模型。该模型以 PubMedBERT 作为基础模型。使用 CLIP(对比语言 - 图像预训练)技术对其进行增强,从而能够微调模型。

基于此,构建了一个本地化的高品质生物载体数据库,以支持高效、有效的查询处理与检索操作。此数据库作为关键资源,有助于快速且精准地获取相关生物医学信息,显著增强了 BioRAG 框架处理复杂生物问题的能力。

2.2 外部信息源

由于生物研究发展迅速,不断融合新发现,所以外部生物学知识对于生物推理而言至关重要。为了解决这个问题,引入了两个外部信息源。

2.2.1 生物数据中心

BioRAG 整合了以下数据库,每个数据库在更广泛的生物分析情境中都具有独特用途:

  • • (1) 基因数据库 https://www.ncbi.nlm.nih.gov/gene/:该资源提供特定基因的功能、结构和表达的全面信息。对于解决与基因机制、基因作用和基因表达相关的查询,促进对基因相关现象的更深入理解极具价值。

  • • (2) dbSNP 数据库 https://www.ncbi.nlm.nih.gov/snp/:此数据库存有大量的单核苷酸多态性(SNPs),为研究遗传变异及其与各类疾病的潜在关联提供了关键见解。对于探索疾病和性状遗传的遗传基础的研究甚为有用。

  • • (3) 基因组数据库 https://www.ncbi.nlm.nih.gov/genome/:提供完整的基因组序列,该数据库对于研究不同生物体的基因组的结构、功能和进化至关重要。它支持全面的基因组分析和比较研究,增进了我们对基因组架构及其功能影响的理解。

  • • (4) 蛋白质数据库 https://www.ncbi.nlm.nih.gov/protein/:该资源提供蛋白质的序列、结构和功能的详细信息。对于探索与蛋白质相关的生物过程、理解分子功能和研究蛋白质组内的复杂相互作用意义重大。

2.2.2 搜索引擎

为确保获取最新的讨论和进展,BioRAG 整合了多种搜索引擎,包括谷歌、必应、arXiv、维基媒体和 Crossref。每个平台都对信息的聚合有独特贡献:

  • • (1) 谷歌和必应:这些搜索引擎在网络上广泛搜索各类内容,包括新闻文章、博客和论坛,提供有关与科学主题相关的公众讨论和关注的见解。这种信息的广度对于理解科学问题的社会影响和一般性论述极为关键。

  • • (2) arXiv:作为预印本论文的库,arXiv 在经过同行评审之前提供了跨多个科学学科的最新研究报告和学术文章的访问渠道。此来源对于紧跟最新的科学理论和实验极有价值。

  • • (3) 维基媒体:以其用户友好的内容著称,维基媒体为复杂的科学概念和原理提供了易于理解的阐释。该资源有助于为更广泛的公众理解和教育目的简化高级主题。

  • • (4) Crossref:这项服务作为学术引文数据的综合聚合器,提供了同行评审的学术出版物及其引文网络的链接。Crossref 对于获取高质量的研究成果并理解其对学术界的影响至关重要。

2.3 自评估信息检索器

BioRAG 整合了一种自我评估机制,用以持续评估其所收集信息的充分性与相关性。

  • 内部信息检索:为有效应对生物知识系统固有的复杂性,BioRAG 借助一种集成手段,将明确界定的层次结构与索引信息相结合,开展全面的内部信息检索。首先训练一个 M_textMeSH 模型来预测输入问题的 MeSH。接着,我们使用下图中的模板对 Llama3-8B 模型进行微调,以对给定问题进行分类。构建 MeSH 过滤 SQL 来生成条件检索。若候选结果与给定问题存在一个一致的 MeSH,则认为该候选结果与给定问题相关。然后,采用向量检索过程,依据输入问题和过滤结果之间句子嵌入的余弦相似度对相关结果进行排序。

  • 自我评估策略:为确保检索信息的准确性和时效性,BioRAG 引入了一种自我评估策略,评估从内部知识库收集的数据的充分性。由后端大型语言模型驱动,旨在确定内部检索的信息是否足以切实解决所提出的问题。若内部内容不足,模型将回溯至相关的外部知识源。另外,当初始评估表明科学问题需要更广泛的搜索或特定实体数据的检索时,模型倾向于运用外部工具。这种方法支持该框架提供精准、最新、全面答案的目标,助力更明智的决策,推动生命科学中的研究和应用。

2.4 提示词

为最大限度发挥检索到的语料库和知识的效用,在 BioRAG 中专门设计了一系列提示词。提示详细定义如下:

  • • 提示词 # 1:To provide the most helpful and accurate response to the following Question: {Question}. You have been given descriptions of several RETRIEVAL METHODS: {Retrieval}. Please select the RETRIEVAL METHODS you consider the most appropriate for addressing this question.

  • • 提示词 # 2: Based on the RETRIEVAL METHODS you selected, and considering the Question and the Input Requirements of the retrieval method, please REWRITE the search query accordingly.

  • • 提示词 # 3: Now, using the rewritten QUERY and the retrieval FILTER methods, perform a logical combination to execute the search effectively.

  • • 提示词 # 4: Based on the RETRIEVAL RESULTS from the above steps, please evaluate whether the RESULTS support answering the original Question. If they do not support it, output “NO”. If they do support it, output “YES”.

  • • 提示词 # 5: Based on the RETRIEVAL RESULTS, perform a comprehensive reasoning and provide an answer to the Question.

此外,为专业生物学工具和数据库编制了一系列操作手册,目的是最大限度地发挥它们的能力。具体操作说明如下:

  • • 手册 # 基因: 基因数据库搜索引擎是获取基因全面信息的宝贵资源,涵盖基因结构、功能及相关遗传事件。它特别适合解答关于基因研究和发现的详细问题。要有效使用此搜索引擎,请输入特定的基因名称。

  • • 手册 # dbSNP: dbSNP 数据库搜索引擎是获取单核苷酸多态性(SNP)和其他遗传变异详细信息的关键工具。它特别适合解答关于遗传多样性、等位基因频率和相关遗传研究的问题。要有效使用此搜索引擎,请输入特定的 SNP 标识符或遗传变异名称。

  • • 手册 # 基因组: 基因组数据库搜索引擎是访问整个基因组全面信息的必备工具,包括序列、注释和功能元件。它特别适合解答关于基因组结构、变异和比较基因组学的复杂问题。要有效使用此搜索引擎,请输入特定的基因组名称或标识符。

  • • 手册 # 蛋白质: 蛋白质数据库搜索引擎是获取蛋白质详细信息的关键资源,包括序列、结构、功能和相互作用。它特别适合解答关于蛋白质生物学、生化特性和分子功能的问题。要有效使用此搜索引擎,请输入特定的蛋白质名称或标识符。

  • • 手册 # 网络搜索: 网络搜索引擎是一个强大的工具,设计用来快速有效地帮助您找到关于当前事件的信息。它特别适合获取各种主题的最新新闻、更新和发展。要有效使用此搜索引擎,只需输入相关的搜索查询。

  • • 手册 #PubMed:PubMed 本地向量数据库搜索引擎是一款采用基于向量的搜索技术来检索生物医学文献和研究文章的先进工具。它在解答有关医学研究、临床研究和科学发现的详细问题方面特别有用。若要有效地使用此搜索引擎,输入应为特定的查询或感兴趣的主题。

3 效果对比分析

3.1 生物学相关任务的成果

为验证所提模型的有效性,首先开展生物学问答任务。成果展示于上表:

  • • (1) 基于 BioLLMs 和 GPT-3.5 的结果,针对特定领域数据的微调对领域特定任务大有裨益。鉴于 BioLLMs 的规模远小于 GPT-3.5,它们的表现却能与 GPT-3.5 相媲美。

  • • (2) BioRAG 的表现超越了 BioLLMs 和 GPT-3.5,表明本地数据集和外部数据集的作用。

  • • (3) 尽管 BioRAG 的规模远不及 SciRAG(NewBing),其性能却更胜一筹。这一优势源自两个方面:一是定制化的提示;二是本地和外部信息源的利用。NewBing 无法接入专业数据库,缺乏进行推理所需的技术性生物学描述。

  • • (4) GeneGPT 在此项任务中准确率挂零,因为它是专为 GeneTuring 数据集定制的模型,导致其泛化能力不足。

3.2 专业生物学推理成果

GeneTuring 数据集囊括了更多专业生物学问题,相应的推理过程极度依赖于技术性生物学文献和描述。成果如上表。

由于该数据集未包含训练数据,BioLLMs 未经微调直接运行,所以它们的表现不佳,反映出泛化能力的不足。

在此数据集中,作者专注于分析 GeneGPT、NewBing 和 BioRAG:

  • • (1) 在命名法任务中,BioRAG 和 GeneGPT 的表现分别位居第一和第二,因为两者都能访问 Gene 数据库。BioRAG 整合了搜索引擎的结果,而 GeneGPT 则没有,这造成了两者之间的差距。

  • • (2) 基因组位置任务的推理依赖于专业的 Gene 和 dbSNP 数据库。BioRAG 和 GeneGPT 在基因 SNP 关联子任务中均达到了 100%的准确率,因为它们都能访问 dbSNP 数据库。然而,NewBing 由于无法访问 dbSNP 数据库,在此项任务中准确率归零。对于基因位置子任务,挑战在于基因名称的多样性。GeneGPT 的界面不支持高级搜索,导致检索到的名称不够全面。相比之下,通用搜索引擎如 NewBing 在查询实体存在变体或歧义时,能提供更全面的检索结果。因此,在这项任务中,NewBing 的表现优于 GeneGPT。BioRAG 支持上述两种界面,并在此项任务中取得了最佳成果。

  • • (3) 功能分析任务依赖于基因数据库及相关的 PubMed 论文。PubMed 语料库提供了详尽的基因 - 疾病关系。尽管 NewBing 能检索元数据,但 BioRAG 把本地 PubMed 数据库与其他专业数据库加以整合,以获取最佳成果。

3.3 消融分析

为评估 BioRAG 各个组件的贡献,借助 GeneTuring 数据集展开了广泛的消融研究,有系统地移除各个组件,以衡量其在各类任务中的性能影响。

  • • (1)数据库的影响:结果显示,基因数据库在性能方面发挥着关键作用。比如,当移除此组件时,像基因位置这类任务的准确性显著降低。通用搜索引擎和本地 PubMed 数据库也有积极作用,但与基因数据库相比,其影响没那么显著。

-(2)组件贡献:在组件当中,自我评估机制对于在大多数任务中维持高精度至关重要。MeSH 过滤器和查询重写也能提升性能,但其缺失不像自我评估的移除那样严重降低结果。

-(3)基础语言模型的影响:对比两个基础模型,Llama-3-70B 在所有任务中通常优于 Llama-3-8B,表明更大的模型规模有助于更好地处理复杂的生物查询。这些发现凸显了在 BioRAG 框架内融合各种数据源和高级组件对于在生物问题推理任务中达成最优性能的重要性。通过了解每个组件的贡献,能够针对不同的任务和数据集更好地优化 BioRAG。

3.4 案例研究

为了更直观地对比 BioRAG 与基线之间的推理差异,选取了三个典型的案例研究。

首先提供一个案例研究来展示 BioRAG 的工作流程(如上图)。选自大学生物学数据集。BioRAG 进行了两次自我评估:首次它从网络搜索一般性信息起步,但结果不足以支撑回答问题。于是,BioRAG 进行了第二次自我评估,并调用了更专业的 PubMed 数据库。此次的结果准确且足以支撑回答问题,因此 BioRAG 依据结果给出最终答案。

第二个案例研究在 GeneTuring 数据集中的基因别名任务上开展(如上图)。此任务的挑战在于基因名称的变体。NewBing 从维基媒体获取响应。然而,维基媒体不够专业,无法为输入基因提供别名,致使答案有误。

GeneGPT 的提示过于繁复,且与当前任务无关。更甚者,其 NCBI API 仅返回基因的 ID 而非名称,导致大型语言模型(LLM)无法识别,最终得出了错误结论。

相比之下,BioRAG 采用模糊查询技术,能够容忍更高的误差,同时获取更多相关反馈。每个反馈结果都详尽地包含了基因的别名等相关信息,使得 BioRAG 能够准确回答。

在 GeneTuring 数据集中的基因-疾病关联任务上,进行了第三次案例研究,如上图所示。这项任务的逻辑推理需要依赖基因数据库和相关的 PubMed 文献。PubMed 的摘要提供了详尽的基因与疾病之间的联系。

NewBing 从 Geekymedics 网站获取了回应,但该网站虽提供广泛的医学信息,却未能提供基因-疾病关联所需的精确细节。因此,NewBing 由于依赖非专业资源,其回答并不准确。

GeneGPT 错误地选择了 NCBI 的 API,该 API 返回的是复杂且冗长的 HTML 页面,充斥着大量无关信息。在这些含糊不清的信息背景下,GeneGPT 给出了错误的答案。

在 BioRAG 的推理过程中,它综合运用了基因数据库、本地 PubMed 数据库和网络搜索等多种工具,以收集并相互验证与 B 细胞免疫缺陷相关的基因信息。这一过程涵盖了查询预处理、执行搜索以及在每个步骤中进行自我评估,确保了结果的全面性和准确性。BioRAG 的推理过程是深入细致的,它整合了各种数据源,以确认特定基因与 B 细胞免疫缺陷之间的联系。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

  • 6
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值