微软AI研究团队推出LLaVA-Rad:轻量级开源基础模型,助力先进临床放射学报告生成

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

近年来,大型基础模型在生物医学领域展现出惊人的潜力,不仅在各种基准测试中取得亮眼成绩,还能在数据标注需求极低的情况下,迅速适应下游任务。然而,将这些模型真正应用于临床仍面临巨大挑战。即使是先进的GPT-4V,在多模态生物医学任务上的表现仍存在显著差距。此外,高昂的运行成本、有限的可获取性以及繁琐的手动评估流程,使得医生在处理患者隐私数据时难以直接应用这些最前沿的AI技术。https://github.com/microsoft/LLaVA-Med

随着多模态生成式AI的进步,生物医学应用的范围也在不断扩展,能够同时处理文本和图像的AI系统,已在视觉问答、放射学报告生成等任务上展现出巨大潜力。然而,临床落地依然困难重重。大型模型的资源需求使其在计算成本和环境影响方面带来不小压力,而小型多模态模型(SMMs)虽然更加高效,但在性能上与大型模型仍有较大差距。此外,开源可用的高质量模型匮乏,以及缺乏可靠的事实性评估方法,尤其是在幻觉检测方面的不足,进一步阻碍了其在医学领域的推广。

为了解决这些问题,微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加州大学戴维斯分校和加州大学旧金山分校的研究人员提出了一款全新的小型多模态模型——LLaVA-Rad,并推出了CheXprompt自动评分指标,以评估模型生成报告的事实性。该系统专注于胸部X光(CXR)影像分析,这是医学影像领域最常见的检查类型,旨在自动生成高质量的放射学报告。LLaVA-Rad训练于来自七个不同来源的697,435个影像-报告数据对,当仅有结构化标签时,还利用GPT-4进行报告合成。模型在推理阶段仅需一张V100 GPU即可运行,训练则在一个包含8张A100的计算集群上,仅用一天便可完成。

LLaVA-Rad的架构代表了一种全新的小型多模态模型设计,即便规模远小于Med-PaLM M等大模型,依然能在关键指标上实现领先表现。其训练策略分为三个阶段:单模态预训练、对齐调整和轻量级跨模态学习。模型采用高效的适配器机制,将非文本模态信息映射到文本嵌入空间,确保跨模态学习的有效性。此外,LLaVA-Rad利用来自258,639名患者的697,000张去识别化胸片及其对应报告,构建了一个强大的单模态基础,并在此基础上实现高效的跨模态适应。

相比同等规模(7B参数量)的模型,如LLaVA-Med、CheXagent和MAIRA-1,LLaVA-Rad展现出卓越性能。尽管其规模远小于当前最强的Med-PaLM M,在关键评测指标上依然实现了显著提升:在放射学文本评估指标ROUGE-L上提升12.1%,在F1-RadGraph指标上提升10.1%。更重要的是,在多个数据集(如CheXpert和Open-I)上的测试表明,即便是从未见过的数据,LLaVA-Rad仍能保持稳定的高质量表现。这一优势归功于其模块化设计和高效的数据利用策略。尽管Med-PaLM M在F1-5 CheXbert指标上的优势不足1%,但LLaVA-Rad凭借更高的计算效率和更低的资源需求,使其在实际应用中更具可行性。

总体来看,LLaVA-Rad的推出标志着基础模型向临床应用迈出了重要一步。作为一个开源、轻量级的解决方案,它在放射学报告生成任务中达到了最先进的水平。其成功得益于对697,000张胸部X光影像及报告的全面训练,并结合GPT-4进行数据处理,同时采用创新的三阶段训练方法。此外,CheXprompt的引入有效解决了自动评估难题,使得模型的准确性评估可媲美专业放射科医生。这一系列突破无疑为AI在临床医学中的落地应用奠定了坚实基础,加速了人工智能与医疗行业的深度融合。

<think>好的,用户想获取关于如何准备LLaVA-1.1-7B和13B模型权重的官方指导。我需要先回忆一下LLaVA项目的相关信息。根据用户提供的引用[^1],官方文档提到了Model Zoo,里面应该包含所有公开的LLaVA检查点和使用权重的说明。首先,用户需要访问Model Zoo页面,找到对应的模型版本。 接下来,步骤可能包括克隆官方仓库,安装依赖项。用户需要确保环境配置正确,比如Python版本、PyTorch版本以及相关的库如transformers和accelerate。然后,下载预训练的视觉模型语言模型,可能使用提供的脚本或直接下载链接。 用户可能需要合并视觉和语言模型的权重,这通常需要运行特定的脚本,比如官方提供的转换脚本。例如,使用`python -m llava.model.apply_delta`命令来合并基础语言模型LLaVA的增量权重。这里要确保路径正确,避免文件找不到的错误。 此外,用户可能会遇到依赖项版本不兼容的问题,需要按照官方指定的版本安装。例如,使用特定版本的torch和transformers库。可能还需要注意CUDA版本是否匹配,以确保GPU加速正常。 最后,验证模型是否加载成功,可以通过运行示例代码或官方提供的测试脚本来检查。如果用户遇到问题,可能需要查阅项目的GitHub Issues或社区讨论,寻找常见问题的解决方案。 用户的需求可能不仅限于准备权重,还可能涉及如何微调模型或使用模型进行推理。因此,生成的相关问题可以包括如何微调LLaVA模型,或者在不同硬件上部署的注意事项,以及如何处理多模态输入等。确保回答准确引用官方文档,并引导用户正确操作,避免常见的配置错误。</think>关于LLaVA-1.1-7B/13B模型权重的准备,请按照以下步骤操作: ### 1. 环境准备 - 克隆官方仓库并安装依赖: ```bash git clone https://github.com/haotian-liu/LLaVA.git cd LLaVA pip install -e . ``` 注意需使用Python ≥3.8,PyTorch ≥2.0和transformers ≥4.31.0 ### 2. 权重下载 - **基础语言模型**: - LLaVA-1.1-7B:下载Vicuna-7B-v1.5权重 - LLaVA-1.1-13B:下载Vicuna-13B-v1.5权重 - **视觉模型**: 使用官方提供的CLIP ViT-L/14-336px视觉编码器 ### 3. 权重合并 使用官方提供的delta权重进行融合: ```bash python -m llava.model.apply_delta \ --base [path/to/vicuna_weights] \ --target [output_directory] \ --delta liuhaotian/llava-v1.1-7b-delta-v0 # 13B则替换为llava-v1.1-13b-delta-v0 ``` ### 4. 验证加载 ```python from llava.model import LlavaLlamaForCausalLM model = LlavaLlamaForCausalLM.from_pretrained("[output_directory]") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值