npj Digital Medicine发表多模态语言-视觉大模型——驱动甲状腺结节诊断革新:迈向动态智能辅助的AI协同新时代

图片

来源:葩米学术
本文共3200字,建议阅读9分钟该研究论文提出了一种多模态生成式预训练Transformer模型(ThyGPT),旨在辅助甲状腺结节的诊断与管理。


期刊《npj Digital Medicine》上发表的文章《Multimodal GPT model for assisting thyroid nodule diagnosis and management》指的是一种基于多模态GPT(生成预训练变换器)模型的应用,旨在辅助甲状腺结节的诊断和管理。甲状腺结节是甲状腺常见的病理表现,正确的诊断和及时的治疗对于患者的健康至关重要。多模态GPT模型,结合了文本、图像、甚至可能是其他生物医学数据(如超声图像、CT影像等),能够提供全面的决策支持,帮助医生在诊断过程中更准确地评估结节的性质、风险等级和治疗方案。该模型不仅通过自然语言处理(NLP)分析医疗文献和患者数据,还可能通过图像识别算法分析医学影像,最终为甲状腺结节的个性化管理提供智能化建议。

s41746-025-01652-9_00.jpg


01 引言

该研究论文提出了一种多模态生成式预训练Transformer模型(ThyGPT),旨在辅助甲状腺结节的诊断与管理。甲状腺结节作为常见的内分泌疾病,其风险评估主要依赖超声成像(US)和细针穿刺活检(FNA),但传统诊断方法受限于放射科医生的经验,并且AI模型的可解释性不足,导致诊断结果的可信度较低。ThyGPT结合超声图像与文本报告,通过多头自注意力机制进行多模态数据融合,有效提高了诊断准确性,曲线下面积(AUC)由0.805提升至0.908,并显著降低了活检率,同时保持低漏诊率。该模型还具备自然语言交互能力,可实时提供辅助诊断建议,提升了诊断过程的透明度与信任度。此外,ThyGPT能够快速检测超声报告错误,且检测速度是人类的1610倍,错误检测率高达90.5%。尽管该模型在某些亚型甲状腺结节(如滤泡状甲状腺癌)的识别上存在挑战,且受超声设备差异影响,未来仍具有广泛的应用潜力。该研究为医学影像AI辅助诊断提供了新的思路和方法,并展现了ThyGPT在提升甲状腺结节的诊断与管理。

02 模型介绍

文章研究的模型是多模态生成式预训练Transformer模型(ThyGPT),其架构基于LLaMA3模型和Transformer架构,并通过多头自注意力机制实现图像和文本数据的融合分析。

  1. 数据输入模块

    功能:接收超声图像和相关的文本报告作为输入。超声图像用于视觉特征提取,文本报告则提供额外的诊断信息。

  2. 图像预处理模块

    功能:对输入的超声图像进行预处理,包括图像标准化、归一化和数据增强。图像标准化确保所有图像具有一致的尺寸和像素强度范围,归一化则进一步将像素值缩放到标准范围,数据增强技术如旋转、裁剪、缩放和亮度/对比度调整用于提高模型的泛化能力。

  3. 特征提取模块

    功能:利用卷积神经网络(CNN)或其他深度学习架构从预处理后的超声图像中提取视觉特征。这些特征捕捉了图像中的关键信息,如结节的形状、大小、回声模式等,为后续的分类和诊断提供基础。

  4. 文本编码模块

    功能:将文本报告中的信息编码为数值表示,通常使用词嵌入(word embeddings)或预训练的语言模型(如BERT)来实现。这一步骤将文本信息转换为模型可以处理的格式,同时保留了文本中的语义信息。

  5. 多模态融合模块

    功能:将图像特征和文本编码进行融合,以便模型能够同时利用视觉和文本信息进行综合分析。这一模块通常通过注意力机制(如多头自注意力)实现,使模型能够关注图像和文本中最重要的部分,并建立它们之间的关联。

  6. 诊断决策模块

    功能:基于融合后的多模态特征,进行甲状腺结节的风险评估和分类。该模块通常包括一个或多个全连接层,用于将特征映射到诊断结果(如良性或恶性)以及恶性风险值。此外,该模块还可能输出诊断的置信度或不确定性估计。

  7. 自然语言交互模块

    功能:允许放射科医生与ThyGPT进行自然语言对话,查询诊断依据、获取详细解释或调整诊断参数。这一模块增强了模型的透明度和可解释性,使医生能够更好地理解模型的决策过程,并在必要时进行干预。

  8. 输出与反馈模块

    功能:将诊断结果和解释以易于理解的方式呈现给医生,并接收医生的反馈以优化模型性能。这一模块可能包括可视化工具、报告生成器以及用于收集医生反馈的接口,以便不断改进模型的准确性和实用性。

s41746-025-01652-9_03.jpg

通过这些模块的协同工作,ThyGPT模型能够实现对甲状腺结节的准确诊断和管理,同时提供透明且可解释的辅助决策支持。

03 研究结果

  1. 辅助诊断性能提升

AUC提升:在ThyGPT的辅助下,放射科医生在评估甲状腺结节风险时的曲线下面积(AUC)从0.805显著提升至0.908(p < 0.001)。这一结果表明ThyGPT显著提高了诊断的准确性。

敏感性与特异性:对于所有放射科医生,ThyGPT的辅助使平均敏感性从0.802提高到0.893,平均特异性从0.809提高到0.922。这表明模型不仅提高了识别恶性结节的能力,还减少了误诊为恶性的良性结节数量。

s41746-025-01652-9_04.jpg

2. 活检率降低

活检率变化:在ThyGPT的辅助下,活检率从64.2%降低至23.3%(p < 0.001),同时漏诊的恶性肿瘤比例仅从11.6%略微增加到5.3%(p < 0.001)。这一结果表明ThyGPT在减少不必要活检的同时,保持了较低的漏诊率。

3. 报告错误检测

错误检测率:ThyGPT在检测超声报告错误方面表现出色,其错误检测率达到90.5%(142/157;95% CI: 0.899–0.910),显著高于所有参与测试的放射科医生。

处理速度:ThyGPT处理报告的平均时间为0.031秒,远快于放射科医生的49.9秒,满足了实时错误检测的需求。

s41746-025-01652-9_06.jpg

4. 不同经验水平放射科医生的表现

初级放射科医生:在ThyGPT的辅助下,初级放射科医生的诊断性能显著提升,其平均诊断能力接近或达到AI模型的水平。具体来说,他们的平均敏感性从0.786提高到0.882,平均特异性从0.794提高到0.915。

高级放射科医生:高级放射科医生在ThyGPT的辅助下,诊断性能进一步提升,其平均敏感性从0.817提高到0.904,平均特异性从0.825提高到0.929。这表明ThyGPT对不同经验水平的放射科医生均有显著的辅助作用。

5. 具体病例分析

诊断修正案例:文章提供了多个具体病例,展示了放射科医生在ThyGPT辅助下修正初始诊断的实例。例如,在某些病例中,放射科医生最初将结节诊断为良性,但在与ThyGPT讨论后,根据模型提供的详细解释和额外信息,修正为恶性诊断,并最终得到病理结果的确认。

错误检测案例:文章还展示了ThyGPT在检测超声报告错误方面的具体案例,如遗漏、插入、侧混淆、不一致等错误类型,ThyGPT均能准确检测并给出修正建议。

6. 多语言兼容性

语言无关性:通过多语言交叉验证,文章发现ThyGPT在报告理解和错误检测任务中未表现出显著的语言依赖性变化(p = 0.816),表明该模型可作为语言无关的辅助工具,支持不同语言背景的医疗机构。

s41746-025-01652-9_11.jpg

这些研究结果数据充分证明了ThyGPT在甲状腺结节诊断和管理中的有效性和实用性,为医学影像AI辅助诊断领域提供了新的思路和方法。

04 研究意义

  1. 推动甲状腺结节诊断的精准化

    提高诊断准确性:文章提出的ThyGPT模型通过结合超声图像和文本报告,显著提高了甲状腺结节诊断的准确性。这对于减少误诊和漏诊,尤其是避免不必要的活检和手术,具有重要意义。

    降低活检率:在ThyGPT的辅助下,活检率降低了40%以上,同时未增加漏诊率。这不仅减轻了患者的身体负担,还降低了医疗成本。

  2. 增强诊断过程的透明度和可解释性

    自然语言交互:ThyGPT模型能够与放射科医生进行自然语言对话,解释其诊断依据,增强了诊断过程的透明度和可信度。这有助于医生更好地理解模型的决策过程,并在必要时进行干预。

    减少“黑箱”效应:传统AI模型缺乏透明度和可解释性,导致医生和患者对其诊断结果缺乏信心。ThyGPT通过自然语言交互和详细解释,有效减少了这种“黑箱”效应。

  3. 提升超声报告的质量

    错误检测:ThyGPT能够快速准确地检测超声报告中的错误,其错误检测率达到90.5%,远高于人类。这有助于减少因报告错误导致的误诊和误治。

    实时反馈:ThyGPT的处理速度极快,能够在报告完成后立即进行错误检测,为医生提供实时反馈,有助于及时纠正错误。

编辑:黄继彦

关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。

图片

新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值