Nature机器智能:性能强劲!港大提出医学图像预训练经典算法,代码已开源

c28d3f9049361a2ce328501aec39c1c2.gif

©PaperWeekly 原创 · 作者 | 娄蒙

单位 | 香港大学博士生

香港大学计算机系俞益洲教授 (https://i.cs.hku.hk/~yzyu/index.html) 研究团队提出的一种经典的医学图像预训练算法 REFERS (Reviewing Free-text Reports for Supervision),该方法能够从数十万份 X 光影像报告中自动获取自监督信号来进行模型预训练,可以大幅减少对标注数据的依赖,显著降低人工标注所需要的人力成本。

9e529edc021523725cb4c010f7b669eb.png

论文标题:

Generalized Radiograph Representation Learning via Cross-supervision between Images and Free-text Radiology Reports

论文链接:

https://arxiv.org/pdf/2111.03452 (预印版)

https://www.nature.com/articles/s42256-021-00425-9 (Nature版)

代码链接:

https://github.com/funnyzhou/REFERS

73fbc5369c0ccd4ad255f83290dd800a.png

动机

随着 AI 的不断发展,基于 AI 的医学图像分析能提高各类疾病诊疗的精确性、可靠性,促进疾病诊疗技术的发展,是现代医疗的重要组成部分。然而,采用人工智能算法的常规医学图像诊断,需依靠大量人工标注,为模型训练提供监督信号,过程耗费大量人力和时间,成本代价极高。

为了解决该问题,REFERS 应运而生。与严重依赖人工标注的传统方法以及常规的医疗预训练算法相比,REFERS 能够自动从文本报告中的每个词获取监督信号,从而在预训练过程中提取丰富的语义信息和可迁移信息。

ece4ab19c613d85a826c94d7a39df4db.png

方法

9774eebde32915fafc1fec0fc9119ea8.png

▲ 图1. REFERS算法流程图

如上图所示,REFERS 基于 Vision Transformer (ViT) 构建了一种 Radiograph Transformer 从输入的 X 光图像提取信息,并执行交叉自监督学习。具体来说,给定一个患者的影像检查结果作为输入,REFERS 首先将报告中的 X 光图像部分输入到 Radiograph Transformer 来编码图像特征。

值得注意的是,由于一个患者可能会在不同时期进行 X 光诊断,因此,REFERS 会采用权重共享的 Radiograph Transformer 来同时处理多张 X 光图像输入。

然而,直接使用这种处理方式会面临一个问题,即一个患者会对应多个不同的图像表征输出,不利于和文本进行交叉监督学习。因此,REFERS 进一步使用了一种选择性融合策略,即通过 MLP 来学习一组动态的权重来对不同的X光图像表征进行加权,进而通过特征拼接来进行融合。因此,每个患者都对应一个 X 光图像表征。 

在获取患者的 X 光图像表征后,REFERS 会进入包含以下两个任务的预训练阶段:1)从图像表征生成报告;2)强化图像和报告之间表征的一致性。

第一个任务使用专业医师在临床流程中书写的影像报告文本作为监督信号,监督 Radiograph Transformer 的训练过程。具体来说,Radiograph Transformer 和选择性融合模型输出的图像表征会进入一个 Report Transformer 来输出对应的影像报告,该报告以自由文本的形式呈现,包含例如病灶类型和严重程度等的描述。

紧接着,由 Report Transformer 输出的自由文本影像报告会和由专业医师书写的原始报告进行损失计算,进而促使 Radiograph Transformer 通过文本信息学习到强大的图像语义信息。 

第二个任务旨在强化图像表征与相对应的报告文本表征之间的一致性。简言之,将专业医师书写的原始影像报告作为 BERT 的输入来生成一组文本特征,这组特征再进一步和选择性融合模块输出的图像特征进行对比学习,并以提升相似度为优化目标,从而促进图像特征与对应报告的文本特征之间的一致性,进而增强模型的表征能力。

2e34a650441a6d98d72c43349d03e136.png

实验结果

REFERS 在一个大规模数据集 MIMIC-CXR-JPG 上进行了预训练,该数据集包含大约 37 万张 X 光图像,其中每个影像检查都有一个详细的自由文本报告。完成预训练之后,REFERS 在一系列知名并且公开的下游任务数据集(例如 NIH ChestX-ray)上进行了微调(迁移学习),并和 ImageNet 预训练以及最先进的自监督算法进行了对比。

0dc9305ab75e21717ef820c56d1f48e6.png

▲ 表1. REFERS和其它预训练算法在NIH ChestX-ray数据集上的性能对比

如上表所示,基于 REFERS 的预训练模型相较于其它方法有明显的优势。例如,当使用全部下游任务训练集的标注信息(100%)进行微调时,REFERS 比经典的对比学习算法 C2L 在分类精度上有接近 4% 的提升。此外,值得注意的是,即便仅仅在 1% 的标注数据上进行微调,REFERS 仍然具有强大的性能,领先了 C2L 接近 7%。

1d4f93af1813546c7fa5f15fc5fa5326.png

▲ 表2. REFERS和结构化标签训练得到的模型的比较

如上表所示,REFERS 模型通过与自由文本的交叉训练,其性能可以超越直接使用结构化标签进行标签监督预训练(Label-supervised Pre-training, LSP)的模型。

具体来讲,REFERS 与采用相同主干网络架构的 Transformer 模型以及基于 ResNet 的卷积神经网络(ConvNet)进行了对比。不难发现,在多个不同的数据集上,REFERS 均展现出了更优异的性能。更令人瞩目的是,即便在标签使用率达到 100% 的情况下,REFERS 的性能依然显著优于 LSP。

a8e1b92525dfac6ac0ef221fb2ecd824.png

结论

REFERS 算法成功地将数据标注量降低了 90%,从而大大降低开发成本,同时预测准确度也有明显提高。换言之,REFERS 仅仅使用少量的标注数据就可以达到令人满意的性能,当进一步提升标注数据的数量时,REFERS 性能会进一步显著提升,这为实现通用医疗人工智能迈出了重要的一步。

更多阅读

427c7ba502ecd84d66db37b8106cf71f.png

0c28a6a0bb7fbd879ad842f53c783939.png

c3e87c1f49827676dfdb909899125497.png

736414d1bee917be36d62b9d93a816ca.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

190bb2a2355984ccd7206c25a99e5684.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

4a96b6013740b539a64091533059204d.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值