智源和香港中文大学联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed, 和 M3D-Bench, 从数据集、模型和测评全方面推动 3D 医学图像分析的发展。
(1)M3D-Data 是目前最大的 3D 医学图像数据集,包括 M3D-Cap (120K 3D 图文对), M3D-VQA (510K 问答对),M3D-Seg(150K 3D Mask),M3D-RefSeg (3K 推理分割)共四个子数据集。
(2)M3D-LaMed 是目前最多功能的 3D 医学多模态大模型,能够解决文本(疾病诊断、图像检索、视觉问答、报告生成等),定位(目标检测、视觉定位等)和分割(语义分割、指代分割、推理分割等)三类医学分析任务。
(3)M3D-Bench 能够全面和自动评估 8 种任务,涵盖文本、定位和分割三个方面,并提供人工校验后的测试数据。
我们最早于 2024年4月 发布了数据集、模型和代码。近期,我们提供了更小和更强的 M3D-LaMed-Phi-3-4B 模型,并增加了线上 demo 供大家体验!最新进展请关注 GitHub 仓库的更新 ,如果有任何疑问和建议可以及时联系,欢迎大家讨论和支持我们的工作。
论文:
代码:
模型: