【纯干货】医疗视觉大模型2023年进展简述｜Medical Vision-language Models (VLM)

新一代切糕传承人

已于 2023-11-18 18:31:57 修改

阅读量6.2k

点赞数 5

分类专栏：人工智能文章标签：语言模型人工智能健康医疗机器学习视觉检测文心一言 chatgpt

于 2023-11-16 17:01:33 首次发布

本文链接：https://blog.csdn.net/RickieLim/article/details/134444908

版权

人工智能专栏收录该内容

2 篇文章

订阅专栏

写在前面——本篇为原创内容，如转载/引用请务必注明出处！！（最后更新于2023年11月16日）
如有错误，欢迎评论区指出！！不胜感激！！
点赞三连谢谢!!!

如有 Medical Image Analysis, Clinical Data Mining, AI in Healtcare, LLMs合作或共同学习意向，欢迎pm私信我，我给你发社交账号～～

Aims: 帮助大家更快地了解目前处在起步阶段的“医学视觉大模型”。可以当作“Perspective article”来阅读。

医学图像辅助诊断是指使用计算机技术（如图像处理、模式识别等）来分析医学成像数据（如X射线、CT、MRI、Histology、Endoscope等），旨在从医学图像中提取有用的特征信息，以帮助诊断疾病和评估治疗效果。这一领域的历史可以追溯到20世纪初，当时X射线和其他放射学技术的发展使得医生开始能够非侵入性地观察人体内部结构。早期，辅助诊断技术主要包括图像增强、降噪和对比度调整。后来，随着数字成像技术的兴起、计算能力的提升和人工智能算法的发展，更高级的技术如三维重建、图像配准、疾病分类、病灶检测与分割、定量分析、可穿戴设备与手术导航等被提出和广泛应用于癌症检测与治疗、神经疾病诊断、心血管疾病评估等诸多医疗细分领域。许多医院和诊所已经将这些技术及其衍生的各种医学图像计算软件整合到日常诊疗流程中，以提高诊断的准确性和患者的治疗效果。Alexander等人(McKinsey & Company, 麦肯锡公司)在2023年一项针对美国 50 名放射科医生的调查中发现（点击跳转至该篇论文），90% 的人表示他们的工作量在过去 3 年里随着扫描次数的增多而有所增加（医学图像干预&辅助诊断的需求还在持续增加）。而医学图像辅助诊断技术的应用则极大地减轻了放射科医生的工作负担，同时使得临床医生可以在更短的时间内获得更准确、包含更多数据和信息的影像诊断报告。MIT调查发现，2020年至2023年美国实施人工智能的医院数量增加了3倍（数据来源是MIT的一个培训/某报刊，点此跳转）。医学图像处理技术逐渐成为了现代医学不可或缺的一部分。根据Global Market Insights (GMI)的报道，2022年人工智能医疗影像市场价值为13.8亿美元，预计2023年至2032年复合年增长率将超过30.5%。

这篇综述内容非常新，强推，易于理解和入门 —— Vision-Language Models for Vision Tasks: A Survey （点击跳转到论文PDF）

传统医学图像辅助诊断方法需要使用特定于任务的标记数据对每个特定任务进行微调（即：fine-tuning for each specific task），而使用 VLM 的新学习范式（paradigm）可以有效利用网络数据（web data）和零样本预测（zero-shot），而无需特定于任务的微调（即：without task-specific fine-tuning）。个人认为，这是医疗视觉大模型区别于传统模型的最大优势，拥有很大的潜力！具体而言，从医学领域预先训练的视觉语言模型中提取知识需要精心设计的提示。这些提示使用跨领域共享的表达属性，使模型能够传递知识并增强其泛化能力。这种方法允许视觉语言模型在很少或没有图像样本的情况下识别新物体。研究表明该技术在领域适应方面的有效性，例如检测医学图像中的对象，包括摄影、内窥镜检查、细胞学、组织病理学和放射学。这些方法通过精心设计的医疗提示在零样本和少样本性能方面表现出显着优势。

2023年最新医学视觉大模型	项目链接 🔗
谷歌 Med-PaLM 2	https://sites.research.google/med-palm/
斯坦福大学 GMAI	https://news.stanford.edu/2023/04/12/advances-generalizable-medical-ai/
微软 LLaVA-Med	https://github.com/microsoft/LLaVA-Med
上海AI实验室 OpenMEDLab浦医	https://stcsm.sh.gov.cn/xwzx/kjzl/20230630/c783c30d8e62494e83073535f841675f.html
北京大学 Qilin-Med-VL	https://ar5iv.labs.arxiv.org/html/2310.17956#:~:text=The%20first%20large,feature%20alignment%20and%20instruction%20tuning

上述5个是笔者找到的最具代表性的5款针对医学的视觉大模型。欢迎在评论区补充和更新！

Medical VLMs的优势可以概括为：

可以生成非结构化辅助诊断报告（传统的深度学习与医学图像分析方法生成的辅助诊断报告一般是结构化的，即：事先确定并编码要输出的Report的结构与内容）。
可以通过交互式对话来学习医学图像中的新疾病的特征（例如：罕见病zero-shot场景）。
促进地区医疗公平（落后国家也更容易享受到一些新兴的foundation models带来的AI利好）。
传统深度学习/医学图像处理的模型基本都是针对单一疾病的专属模型，虽然准确性高，但耗资巨大。相比之下，医疗视觉大模型是整合了多功能、多疾病、多任务、多模态影像的AI基础大模型，面对few-shot和zero-shot场景也能展现出很鲁棒的表现。结合大模型与传统的医学图像分析模型，针对常见的疾病作出最准确、完整的全流程辅助诊断和决策支持。
可以为传统的人机交互或可穿戴设备赋能。例如：前人已经将微软HoloLens XR虚拟现实设备结合医学图像辅助诊断软件，用于辅助手术、手术导航等场景。结合大模型的能力会让原有的使用流程更进一步！此外，远程医疗（Telemedicine）和手术机器人或许也会因此而受益。
其它医疗视觉大模型的优势，可以阅读“上海人工智能实验室”发表的这篇报道，写的很清晰！

缺点与挑战: