登上Nature子刊！首个糖尿病诊疗多模态大模型-CSDN博客

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

添加微信号：CVer111，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

来源：清华大学医学院

清华大学副教务长、医学院主任黄天荫教授团队，上海交通大学电院计算机系/教育部人工智能重点实验室盛斌教授团队，上海交通大学医学院附属第六人民医院贾伟平教授及李华婷教授团队，新加坡国立大学及新加坡国家眼科中心覃宇宗教授团队合作研究，成功构建全球首个面向糖尿病诊疗的视觉-大语言模型集成系统 DeepDR-LLM，成果于 2024 年 7 月 19 日在 Nature Medicine 发表（题为 Integrated image-based deep learning and language models for primary diabetes care）。

DeepDR-LLM 系统融合了语言模型和基于眼底图像的深度学习技术，为基层医生提供个性化的糖尿病管理意见及糖尿病视网膜病变（diabetic retinopathy, DR）辅助诊断结果。该系统在覆盖亚非欧三大区域七个国家的多中心队列中进行了回顾性验证，并通过针对中国基层医疗场景开展前瞻性真实世界研究验证，首次提供了面向糖尿病医疗垂直领域的多模态大模型应用效果的高质量循证证据。DeepDR-LLM 系统有望大幅改善中低收入国家的基层糖尿病管理和 DR 筛查水平，为未来全球糖尿病管理提供了革命性的数字解决方案。

图 1 本文于 2024 年 7 月在 Nature Medicine 杂志在线发表

研究背景

全球糖尿病患者超 5 亿人，其中 80% 生活在中低收入国家^[1]。我国现有糖尿病人数居全球之首（超 1.4 亿），糖尿病防治形势更为严峻，尤其在基层和偏远地区，远不能满足糖尿病管理的实际需求。糖尿病的患病率不断上升对中国及全球的公共卫生构成重大挑战^[2]。

人工智能特别是深度学习在糖尿病及并发症管理领域发挥着越来越重要的作用，如 2017 年，时任新加坡国家眼科中心医学主任的黄天荫教授及其团队在国际上率先基于深度学习算法并在多种族人群上实现了自动诊断中重度 DR 病例成果发表于 JAMA^[3]，成果在智能医疗发展历史上具有里程碑式意义。黄天荫教授于 2021 年底受聘于清华大学担任讲席教授及医学学科带头人，积极开展人工智能赋能糖尿病及眼病并发症诊疗的转化研究工作。

2024 年 1 月黄天荫教授团队与上海交通大学医工交叉团队合作，研制基于 Weibull 混合分布模型的深度学习框架 DeepDR Plus，发表于 Nature Medicine^[4]，在全球率先精准预测 DR 进展的时间和发病风险。

然而，既往人工智能系统研发重点仅局限于糖尿病的辅助管理或 DR 筛查的单一领域。随着全球范围内以 ChatGPT 为代表的生成式人工智能技术的迅猛发展和迭代更新，多模态大模型正不断推动医疗领域涌现出新的应用场景和模式，但尚无法根据患者的医学影像及病情状况提供准确的诊断建议和安全的个性化糖尿病综合诊疗意见^[5]。

鉴于此，如何将糖尿病诊疗意见的自动生成与糖尿病眼部并发症的精准诊断进行有效整合，进而构建出一个安全、可控的多模态智能模型，以支持基层医生实现一站式辅助诊疗服务，已成为了当前国际医疗领域的前沿趋势和重要挑战。针对上述技术空白与临床需求，清华大学黄天荫教授与上海交通大学、新加坡国立大学等机构合作，研发了全球首个面向糖尿病基层诊疗的视觉-大语言模型集成系统 DeepDR-LLM（图 2）。

DeepDR-LLM 系统由 LLM 模块和 DeepDR-Transformer 模块构成，科研团队创新性地提出了结合适配器（Adaptor）和低秩自适应（Low-Rank Adaptation, LoRA）技术的多模态大模型优化策略，利用 37.2 万条基层慢病诊疗和管理数据和超 50 万张眼底图像对 DeepDR-LLM 多模态大模型进行训练优化，实现了个性化糖尿病诊疗意见的精准生成，可为基层医生提供个性化的糖尿病管理和 DR 辅助诊断服务。

图 2 DeepDR-LLM 系统概览

研究概述

DeepDR-LLM 系统由 LLM 模块和 DeepDR-Transformer 模块构成，研究团队创新性地提出了融合 Adaptor 和 LoRA 的多模态大模型协同优化策略，成功构建了全球首个面向糖尿病基层诊疗的视觉-大语言模型集成系统（图 2）。基于大语言模型 LLaMA，LLM 模块通过构建 Adaptor 和 LoRA 融合框架，将额外的可训练网络层插入到 LLaMA 架构中，同时冻结 LLaMA 的原有权重参数，并对新构建的模型网络利用 37.2 万条慢病诊疗和管理数据进行训练，可实现基于临床信息的糖尿病管理意见推荐。

DeepDR-Transformer 模块利用了 Transformer 模型架构，利用了超 50 万张眼底图像进行训练，可实现基于眼底图像的图像质量检测、眼底病变分割和 DR 分级检测。DeepDR-Transformer 模块产出的 DR 信息可以输入 LLM 模块实现 DeepDR-LLM 系统的集成。DeepDR-LLM 系统自去年研制成功后，科研团队对该系统开展了安全性、可靠性、可控性、公平性等多维度的评估（图 3）。

研究团队邀请香港中文大学 Juliana C. N. Chan 教授、澳大利亚 Baker 心脏病与糖尿病研究所 Jonathan E. Shaw 教授、美国约翰霍普金斯大学 Justin B. Echouffo-Tcheugui 教授、新加坡国家眼科中心 Gavin Siew Wei Tan 教授等 10 位糖尿病相关学科的著名学者组成国际多学科专家委员会，专家委员会首先从覆盖中国 31 个省区的中国糖尿病慢性并发症研究队列中随机抽取 100 个病例样本，专家针对每个病例形成诊疗共识，以此为标准答案，对 DeepDR-LLM 系统和基层医生给出的诊疗意见进行盲法评分，发现 DeepDR-LLM 系统产出诊疗意见的质量达到或强于基层医生的水平（图 3a）。

DeepDR-LLM 系统通过来自北京、上海、广州、武汉及香港等中国城市和新加坡、印度、泰国、英国、阿尔及利亚、乌兹别克斯坦六个国家的超 50 万张眼底图像对 DeepDR-LLM 系统进行外部测试，其 DR 诊断能力达到专业眼科医生水平（图 3b）。进一步通过面向中国基层医生和新加坡读片人员的读片试验，利用从中国糖尿病慢性并发症研究、新加坡眼病流行病学研究等数据库抽取的眼底图像，团队同时证明了基层医生在 DeepDR-LLM 的辅助下能够更准确地判读 DR（图 3c）。

此外，研究团队将集成的 DeepDR-LLM 系统应用于真实世界临床流程，开展了随访 769 名中国基层糖尿病患者的前瞻性研究，证明了在 DeepDR-LLM 系统纳入糖尿病诊疗流程后，可显著改善新发糖尿病患者的自我管理行为，提高 DR 患者的转诊依从性（图 3d）。

图 3 DeepDR-LLM 系统评估流程

研究意义

由清华大学、上海交通大学及新加坡国立大学等机构合作研究，通过创新性地提出融合 Adaptor 与 LoRA 的多模态大模型协同优化策略，成功构建了全球首个面向糖尿病基层诊疗的视觉-大语言模型集成系统 DeepDR-LLM，可实现 DR 辅助诊断及糖尿病管理意见推荐。从更广泛的公共卫生角度来看，目前全球基层糖尿病管理水平参差不齐，中低收入国家面临医疗资源不足、缺乏训练有素的基层医生等挑战。

未来 DeepDR-LLM 系统有望纳入基层糖尿病管理诊疗流程（图 4），特别在中低收入国家，可提高基层 DR 筛查能力和糖尿病诊疗水平，进而改善预后。研究团队秉承以人为本、智能向善的理念，为基层糖尿病管理的未来变革提供了高质量循证依据，让全球糖尿病治理更好融入数字化、智能化、绿色化潮流，为糖尿病智能治理贡献中国方案和亚洲智慧。

图 4 DeepDR-LLM 系统纳入基层糖尿病管理诊疗流程的愿景

原文链接：https://www.nature.com/articles/s41591-024-03139-8

作者信息：

清华大学黄天荫教授，上海交通大学盛斌教授、贾伟平教授及李华婷教授，新加坡国立大学覃宇宗教授为本文共同通讯作者。上海交通大学李佳佳、管洲榆，上海市保健医疗中心王静为本文共同第一作者。本工作还到了来自国家基层糖尿病防治管理办公室、中国医学科学院北京协和医学院、首都医科大学、华中科技大学、中山大学、香港中文大学等多个机构及专家团队的支持和帮助。此外，英国、美国、新加坡、澳大利亚、西班牙、马来西亚、阿尔及利亚、乌兹别克斯坦、泰国、印度等国的多学科专家团队给予了帮助和支持。该研究得到科技部国家重点研发计划、国家自然科学基金、北京市自然科学基金和上海市科委「一带一路」国际联合实验室建设项目等资助。DeepDR-LLM 系统研发所需算力资源得到上海交通大学 AI for Science 科学数据开源开放平台的支持。

参考文献

[1] Sun H, Saeedi P, Karuranga S, et al. IDF Diabetes Atlas: Global, regional and country-level diabetes prevalence estimates for 2021 and projections for 2045. Diabetes Research and Clinical Practice. 2022;183:109119. doi:10.1016/j.diabres.2021.109119

[2] Chan JCN, Lim L-L, Wareham NJ, et al. The Lancet Commission on diabetes: using data to transform diabetes care and patient lives. Lancet. 2021;396(10267):2019-2082. doi:10.1016/S0140-6736(20)32374-6

[3] Ting DSW, Cheung CY-L, Lim G, et al. Development and Validation of a Deep Learning System for Diabetic Retinopathy and Related Eye Diseases Using Retinal Images From Multiethnic Populations With Diabetes. JAMA. 2017;318(22):2211-2223. doi:10.1001/jama.2017.18152

[4] Dai L, Sheng B, Chen T, et al. A deep learning system for predicting time to progression of diabetic retinopathy. Nature Medicine. 2024;30(2):584-594. doi:10.1038/s41591-023-02702-z

[5] Sheng B, Guan Z, Lim L-L, et al. Large language models for diabetes care: Potentials and prospects. Sci Bull (Beijing). 2024;69(5):583-588. doi:10.1016/j.scib.2024.01.004

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

ECCV 2024 论文和代码下载

在CVer公众号后台回复：ECCV2024，即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba、多模态和扩散模型交流群成立

扫描下方二维码，或者添加微信号：CVer111，即可添加CVer小助手微信，便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba、多模态学习或者扩散模型+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer111，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集上万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请赞和在看