计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-19
1. SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation
Authors: Yi-Chia Chen, Wei-Hua Li, Cheng Sun, Yu-Chiang Frank Wang, Chu-Song Chen
SAM4MLLM: 增强多模态大型语言模型以进行指代表达式分割
摘要:
本文介绍了一种创新方法SAM4MLLM,它将Segment Anything Model (SAM)与多模态大型语言模型(MLLMs)相结合,用于像素级感知任务。该方法使MLLMs能够学习像素级位置信息,而无需对现有模型架构进行大量修改或添加专门的标记。通过基于询问的方法,可以有效地找到SAM进行分割的提示点。该方法结合了详细的视觉信息和大型语言模型的强大表达能力,以统一的基于语言的方式进行,无需额外的计算开销。在公共基准测试上的实验结果证明了该方法的有效性。
创新点:
- 提出了一种简单的解决方案,通过不改变MLLM模型架构、引入新标记或使用额外损失函数,增强MLLM对像素级细节的理解。
- 引入了一种新的方法,通过主动查询语言系统来获取SAM的提示点线索。
- 在各种RES基准测试中,包括RES数据集、GRES和ReasonSeg,验证了SAM4MLLM的有效性,并展示了其在处理复杂像素感知任务中的优越性能。
算法模型:
SAM4MLLM方法通过将MLLMs与SAM无缝集成来增强MLLM的视觉能力。它采用了一种简单的策略,将像素级信息引入训练数据集,而不改变原始MLLM架构。该方法使用文本交叉熵损失进行训练,与流行的LLMs使用的相同。此外,提出了两种解决方案来获取SAM的提示点:直接生成提示点的Prompt-Point Generation (PPG)和通过查询-回答机制间接获取提示点的Proactive Query of Prompt-Points (PQPP)。
实验效果:
- 在refCOCO数据集上,SAM4MLLM-PQPP在val和testB上分别达到了77.1和80.9的准确率,超过了大多数最近的基于LLM的方法。
- 在gRefCOCO数据集上,SAM4MLLM-PQPP在Test Set B上达到了70.54的准确率,略低于GSVA但优于其他7B模型。
- 在ReasonSeg数据集上,SAM4MLLM-PQPP在val上达到了46.7的准确率,优于LISA-7B和其他方法。
- 在VQA数据集上,使用SAM4MLLM微调后,模型的VQA得分从78.2提高到了78.7。
推荐阅读指数: ★★★★★
推荐理由:
这篇论文提出了一种创新的方法,通过结合SAM和MLLMs来处理指代表达式分割任务。该方法在保持模型简单性的同时,显著提高了分割的准确性,且在多个基准测试上都取得了优异的性能。此外,该研究还探索了如何有效地结合不同模型的优势来解决复杂的多模态问题,这对于计算机视觉和自然语言处理领域的研究人员和实践者来说都是极具价值的。
2. Language Models and Retrieval Augmented Generation for Automated Structured Data Extraction from Diagnostic Reports
Authors: Mohamed Sobhi Jabal, Pranav Warman, Jikai Zhang, Kartikeye Gupta, Ayush Jain, Maciej Mazurowski, Walter Wiggins, Kirti Magudia, Evan Calabrese
使用开放权重大型语言模型和检索增强生成进行诊断报告中自动化结构化数据提取:方法和参数评估
摘要:
目的:开发并评估一个自动化系统,利用开放权重大型语言模型(LMs)和检索增强生成(RAG),从非结构化的放射学和病理学报告中提取结构化临床信息,并评估模型配置变量对提取性能的影响。
方法和材料:研究使用了两个数据集:7,294份放射学报告,标注了脑肿瘤报告和数据系统(BT-RADS)评分,以及2,154份病理学报告,标注了异柠檬酸脱氢酶(IDH)突变状态。开发了一个自动化流程,用于基准测试各种LMs和RAG配置的性能。系统评估了模型大小、量化、提示策略、输出格式化和推理参数的影响。
结果:最佳性能模型在从放射学报告中提取BT-RADS评分的准确率超过98%,在从病理学报告中提取IDH突变状态的准确率超过90%。表现最好的模型是医学微调的llama3。较大、更新和领域微调的模型持续优于旧的和较小的模型。模型量化对性能影响最小。少量提示显著提高了准确性。RAG提高了复杂病理报告的性能,但对较短的放射学报告没有提高。
结论:开放LMs展示了从非结构化临床报告中自动提取结构化临床数据的显著潜力,具有本地隐私保护应用的前景。模型选择、提示工程和使用标注数据的半自动优化对于最佳性能至关重要。这些方法可能足够可靠,可供研究工作流程中实际使用,突出了医疗数据提取中人机协作的潜力。
创新点:
- 利用开放权重的大型语言模型和检索增强生成(RAG)来自动化从非结构化医疗报告中提取结构化数据。
- 系统地评估了模型大小、量化、提示策略、输出格式化和推理参数对提取性能的影响。
- 通过少量提示和领域特定的微调,显著提高了模型在特定医疗数据提取任务中的准确性。
算法模型:
研究中使用了多种开放权重的大型语言模型(LMs),包括不同大小、量化水平、训练数据、发布日期和医学微调的模型,如Llama3、openbiollm Llama3、Llama2和Medllama2等。此外,研究还探索了RAG在提高复杂病理报告提取性能方面的潜力。<