医疗领域大模型总结及RAG新框架RAGLAB：兼看StructuredRAG结构化指令遵循评估基准

最新推荐文章于 2025-02-05 20:19:39 发布

Python_金钱豹

最新推荐文章于 2025-02-05 20:19:39 发布

阅读量1.4k

点赞数 26

文章标签：人工智能 chatgpt 语言模型自然语言处理数据库

本文链接：https://blog.csdn.net/Python_cocola/article/details/141474803

版权

我们来看三个工作，主要围绕领域大模型以及RAG。

一个是领域大模型进展-医疗领域大模型总结，一个是RAG框架进展RAGLAB:检索增强生成框架，一个是STRUCTUREDRAG：评估RAG回复中的格式指令输出遵循性能，三个工作都很有趣，会有一些收获。

一、领域大模型进展-医疗领域大模型总结

领域大模型进展。医学领域的大模型综述，Clinical Insights: A Comprehensive Review of Language Models in Medicine：https://arxiv.org/pdf/2408.11735，从内容上看，该工作分类和讨论了LLMs在医疗领域的多种应用，包括文本生成、标记分类、序列分类、问答和信息提取、摘要和释义、以及对话等任务。

一图胜千言，可以看看当前医疗模型的一些列表，Overview of Prevalent Medical Language Models

1、医疗大模型的列表

其提供了当前流行的医疗语言模型的概述，包括它们的名称、年份、架构、训练数据和实验数据集。

名称：列出了各个医疗语言模型的名称，例如ClinicalBERT、BioBERT、PubMedBERT等。
年份：大约的年份，这些模型是在何时被提出的。
架构：模型所基于的架构，例如BERT、GPT-2、T5等。
训练数据：用于训练这些模型的数据集，如MIMIC-III、PubMed、CPRD等。
实验数据集：用于评估模型性能的数据集，例如NCBI、i2b2/VA、BC5等。

表中还提到了一些特定于任务的模型，例如：

ClinicalBERT：2019年基于BERT架构，使用MIMIC-III数据集进行训练，用于预测医院再入院。
BioBERT：2019年同样基于BERT架构，训练数据包括PubMed摘要和PMC全文文章，用于命名实体识别（NER）、关系提取（RE）和医学问答（QA）。
BioGPT：2022年基于GPT-2 XL架构，使用PubMed项目进行训练，用于文本分类、生物医学文本生成和数据挖掘。
ClinicalT5：2022年基于T5架构，使用MIMIC-III的文本笔记进行训练，用于文档分类、命名实体识别、自然语言推理（NLI）等。
ChatDoctor：2023年基于LLaMA架构，使用HealthCareMagic100k数据集进行微调，用于对话系统。

2、医疗大模型的应用

也可以看看当前大模型在医疗领域的应用，Summary of Major LLM Applications in Medical Domain

表3总结了大型语言模型（LLMs）在医疗领域的主要应用，包括各种医疗应用的例子、使用的数据集和解决方案。以下是对表中内容的详细解读：

1）LLM应用

文本生成：如医学报告生成、临床笔记生成、为非专业人士生成摘要、患者-提供者对话摘要生成、从图形模型生成文本描述等。
标记分类：临床缩写消歧、专有名词消歧等。
序列分类：包括表型分析、医学编码、患者时间线建模、社交媒体监控等。
问答和信息提取：从电子健康记录中查询数据、从临床叙述报告中提取信息、从医学文章中提取信息等。
摘要和释义：临床研究报告摘要、患者-提供者对话摘要、医学文本简化等。
对话：包括心理健康机器人、医疗聊天机器人和健康助手、分诊、鉴别诊断等。

2）例子

文本生成：MEDSUM-ENT、Talk2Care等。
标记分类：SciBERT、BioBERT、ClinicalBERT等用于临床缩写消歧。
序列分类：Foresight、BioClinicalBERT等用于患者时间线建模和表型分析。
问答和信息提取：quEHRy、BiomedBERT、PubMedBERT等用于从电子健康记录中提取信息。
摘要和释义：fine-tuned BART、RALL、fine-tuned Llama等用于临床研究报告摘要。
对话：MedPaLM、DRG-LLaMA、openCHA等用于医疗对话系统。

3）重要数据集

文本生成：CTRG-Chest-548K、CTRGBrain-263K、IUXray、MIMIC-CXR、CheXpert等。
标记分类：CASI、NLM-WSD等。
序列分类：CSSRS、MIMIC-III、MIMIC-IV、eICUCRD等。
问答和信息提取：CASI、n2c2、i2b2、PubMedQA、MedMCQA、emrQA、BIOASQ等。

二、RAG框架进展RAGLAB:检索增强生成框架

《RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation》：https://arxiv.org/pdf/2408.11381，这个还不错。

可以看看以下几个重点内容：

1、RAGLAB构成

检索器（Retriever）：集成了两种基于BERT的模型，提供了统一的查询接口。

语料库（Corpus）：提供了预处理的Wikipedia语料库和索引。

生成器（Generator）：集成了Huggingface Transformers和VLLM，支持多种开源模型。

指令实验室（Instruction Lab）：设计了三个关键组件，允许用户导入和组合不同的指令。

训练器（Trainer）：集成了加速和DeepSpeed库，支持模型微调。

2、现有主流RAG框架的对比

表1对比了不同的RAG库和框架，并根据几个关键特性进行了评估。

公平比较：指在评估过程中对所有基本组件进行对齐，包括随机种子、生成器、检索器和指令。这确保了不同算法之间的比较是公平的。
Langchain、LlamaIndex和Haystack不支持公平比较。
FastRAG、RALLE、LocalRQA、AutoRAG、FlashRAG和RAGLAB支持公平比较。
数据收集器：指库的能力，可以收集或生成训练和测试数据，通过从现有的原始数据集进行采样或使用LLMs构建标记数据。
除了Langchain、LlamaIndex和Haystack之外，其他库都具备数据收集器的功能。
训练器：指库是否提供了训练模型的能力。
只有LocalRQA、AutoRAG、FlashRAG和RAGLAB具备训练器功能。
自动评估：指库是否具备自动评估模型性能的能力。
除了Langchain、LlamaIndex、Haystack和RALLE之外，其他库都具备自动评估功能。
模块化设计：指库的设计是否模块化，允许用户透明地修改和扩展组件。
Langchain、LlamaIndex、Haystack、FastRAG和RALLE具备模块化设计。
LocalRQA不具备模块化设计，而AutoRAG和FlashRAG具备。
RAGLAB具备模块化设计。

3、不同RAG算法的指令设计 Algorithm Instructions

不同RAG算法的指令设计包括Naive RAG（简单RAG）、RRR、ITER-RETGEN、Self ASK、Active RAG以及Active RAG

三、STRUCTUREDRAG：评估RAG回复中的格式指令输出遵循性能

关于RAG评估进展。《StructuredRAG: JSON Response Formatting with Large Language Models》：https://arxiv.org/html/2408.11061v1，https://arxiv.org/abs/2408.11061，用来评估RAG回复中的格式指令输出遵循性能。

从内容上看，该工作主要探讨了大模型（LLMs）生成结构化输出（如JSON格式） 的能力，提出StructuredRAG，一个包含六个任务的基准测试，旨在评估LLMs遵循响应格式指令的熟练程度。

1、StructuredRAG基准测试

StructuredRAG基准测试，包括六种测试，评估字符串、整数、布尔值、字符串列表和复合对象的响应格式，也就是string, integer, boolean, List[string], AnswerWithConfidence, and List[AnswerWithConfidence]

2、 f-String and Follow the Format (FF) prompting策略的对比

3、主要结论

性能差异显著：在StructuredRAG基准测试中，大型语言模型在遵循JSON响应格式指令方面表现出显著的性能差异。实验结果显示成功率从0%到100%不等，表明任务复杂性、模型选择和提示策略都会影响性能。
任务复杂性影响性能：涉及列表或复合对象输出的任务对LLMs来说更具挑战性，性能在这些任务上有所下降。
模型间性能比较：Gemini 1.5 Pro和Llama 3 8B-instruct在基准测试中显示出可比的性能，尽管Gemini 1.5 Pro在平均成功率上略高于Llama 3 8B-instruct。
提示策略的影响：不同的提示策略（f-String和Follow the Format，FF）对模型性能有不同的影响。对于Gemini 1.5 Pro，f-String提示策略更为有效，而对于Llama 3 8B-instruct，FF提示策略表现更好。
OPRO优化器的有效性：使用OPRO优化器对Llama 3 8B-instruct的提示进行优化，成功地将生成复合对象列表任务的成功率提高到了100%，这表明通过优化提示可以显著提高LLMs生成结构化输出的能力。

总结

本文主要介绍了领域大模型进展-医疗领域大模型总结，RAGLAB:检索增强生成框架，STRUCTUREDRA评估RAG回复中的格式指令输出遵循性能。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述