MICCAI 2024 | 重新思考医学异常检测的自编码器

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【医学影像和异常检测】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

2a6a652c9e2c36b6cda45a15d096fbb9.png

近日,HKUST Smart Lab的一项关于医学图像异常检测的研究将在International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI) 2024发表。研究指出了基于自编码器(AE)的异常检测方法的理论缺失,并利用信息论为这类方法提供了理论支撑,以此为基础揭示了异常检测中AE的最优解需满足的理论条件。

a691aef45ff6c752331000303a2bb66b.png

论文:https://arxiv.org/pdf/2403.09303

代码:https://github.com/caiyu6666/AE4AD

摘要

医学异常检测旨在仅使用正常训练数据识别异常,在健康筛查和识别罕见疾病中起着至关重要的作用。基于重建的方法,尤其是利用自动编码器(AE,Autoencoder)的方法,在该领域占主导地位。它们的工作原理是假设仅在正常数据进行训练的AE无法重建未见过的异常区域,从而将重建误差用于指示异常。然而,由于重建任务的训练目标与异常检测任务的目标不匹配,这种假设并不总是成立,导致这些方法在理论上不合理。本研究旨在为基于AE的异常检测重建方法提供理论基础。通过利用信息论,我们阐明了这些方法的原理,并揭示了提高异常检测中AE性能的关键在于最小化隐向量的信息熵。在具有两种图像模态的四个数据集上的实验验证了我们理论的有效性。据我们所知,这是首次从理论上阐明 AE 用于异常检测的原理和设计理念。

基于AE的异常检测方法流程与局限性

89aff4d9d0cff059deae022b781f464a.png

图1 基于AE的异常检测示意图

如图1所示,自编码器(记作69742511a79a40dbea3b1037d0aa65dc.png)由编码器和解码器构成。编码器将输入图像压缩成一个紧凑的隐向量Z,解码器将隐向量Z重新映射到图像域。将正常图像记作,异常图像记作43aeb70c9366096ce4e5f73d898f58b5.png;每张异常图像可以看作其对应的正常版本加上病灶区域ed4525d45c46d16d11c80e465f717674.png,即:9cd0c6296de7e1799dbd04d582d17b83.png。基于AE的异常检测方法训练目标是最小化正常图像上的重建损失:

493c718ede2c8c9aee0609c2d27246ef.png

理想情况下,训练好的模型被希望实现以下目标:

0da27154b4f3256f7ee3ec3fd9f20898.png

其中1f1a3bb3262f85fc540960c7fd9ddd27.png22032551093bcf4d4bcf9f63c3c8e790.png表示AE的重建结果。在此理想情况下,若输入为正常图像,则重建误差为0;若输入为异常图像,则重建误差图能指示异常区域。

然而,训练目标(式(1))与理想的任务目标(式(2)(3))不匹配。训练目标鼓励AE生成与模型输入相同的重建结果,但是推理阶段异常图像的理想重建结果与模型输入不同。这种差异可能导致AE成功重建一些异常区域,从而产生假阴性预测。

例如,在极端情况下,如果AE学习到函数79639e51ebc033d220d3cee3d8edc1e3.png,它完全满足训练目标,但无法检测出任何异常。这种现象被称为“恒等捷径”。

为了更好地理解这个问题并寻求潜在的解决方案,我们在下面对AE的性质进行理论分析。

关于异常检测AE的理论分析

命题1. 对于如图1所示的AE,令90b04ea9f4e2c35bf3ab79c32eb07c25.png为隐向量前一层的特征向量,deb49d65011f28199cd3426b62feedec.png为后一层的特征向量。若3b646fb6e3d4d343fac3891a2e8c914e.png,则AE不可能学到恒等捷径。

证明见原文。

命题1表明,具有适当隐向量维度的 AE 可以有效规避有害的恒等捷径。因此,我们认为无需引入更复杂的模块来解决这个问题。

尽管满足3f575b53f3552046b5146df1daf92855.png的 AE 不会学到到恒等捷径,但我们观察到由于模型的泛化能力,一些异常区域仍被重建。这促使我们从理论上分析其原因,并在理想情况下,找到指导模型设计的最佳解决方案。我们的论证和理论依据在命题2中给出。

命题2. 给定一个用于异常检测的AE,令正常图像为c6ea9dbf38bb7433583cf86113a5e955.png,异常图像为aaf08d5f24cfa36797b97f4b147a75af.png,隐向量为。则最优的AE需满足:(1)a3571c5e81fb11c55b2117823fbade79.png;(2)acaab1705039b3f3ddac421254f9b024.png。(其中I表示互信息量,H表示熵)。

d82353cec00b03634b0f2fe3f5793afb.png

证明见原文。

图2给出了维恩图以直观解释命题2。命题2揭示了最优AE的隐向量应满足的条件:(1) 它应当提供正常数据的所有信息,(2)它不应包含任何异常信息;如图2(c) 所示。之前仅使用式(1)训练的AE可实现25159a5a195c860ffecda76c16e24769.png,则满足6081250378abb1632323d9533413fe14.png。因此,此AE满足命题2中条件(1),但未能满足条件(2)。图2(b)中的维恩图描述了这种情况,表明其H(Z)超出了2ac8a7db8a365c3ebde9f1bf3f108368.png的范围,并自然而然地提供了有关疾病的信息d056d3cf7a6050b152115ae52915441a.png,从而导致假阴性。这是一个棘手的问题,因为在训练期间无法获得异常图像。为了解决这个问题并实现命题2的条件(2),理想的做法是最小化H(Z)以使它接近58948670e5baa1c31b74423b66c46c14.png,从而将H(Z)的范围从图2(b) 转换为(c)。在此情况下,H(Z)不再包含异常信息,仅保留正常信息,从而保证重建结果为正常。

总的来说,我们的理论表明,在异常检测中,AE受益于最小化隐空间的熵。在最优情况下,该熵值应等于正常数据的熵,从而确保异常无法由模型表示和重建。同时,对于具有更高信息量的更复杂数据集,需要增加隐空间的熵以匹配正常数据的熵。在实践中,这可以直接通过调整隐向量维度显式实现,也可以通过施加隐空间约束隐式实现。

实验

验证命题1

93a705c5a732ff9416f04eddfdd7e4bf.png

图 3 展示了 RSNA 数据集上相对于隐向量维度的重建误差,该趋势与我们的理论一致。首先,我们观察到当d较小时,d的增大会导致重建误差降低。当efa8b415f2c4f6c205a3e2f4e5e79544.png时,d的增大不会导致误差减小。这证实了具有较小d的AE不会遇到恒等捷径,而当c341cce13e140fee0cb282d1ec730d9e.png时,瓶颈层将会饱和。其次,即使9b383f28554871ebcbd9bb7af4885a1b.png,正常训练数据的误差依然小于正常测试数据的误差,而正常测试数据的误差又小于异常测试数据的误差。这表明即使瓶颈饱和,由于模型能力有限,AE中也不会学习到恒等映射。

验证命题2

我们通过调整隐向量维度来控制H(Z),从而验证命题2。表1展示了具有不同d的AE的异常检测性能,趋势与我们的命题一致。首先,将d从 128 减少到 1 ,性能会先提高,再下降,最佳d通常非常小。值得注意的是,在RSNA和VinDr-CXR数据集上,d=4的性能比d=128的性能高出10% AUC以上,这表明正常信息可以用紧凑向量表示。另一方面,d值过大可能导致对异常样本的泛化,而太小的值不能充分表示正常信息,导致性能下降。

其次,结果显示最佳d在不同的图像模式中有所不同,反映了的差异。对于RSNA和VinDr-CXR数据集,最佳d为 4,而对于Brain Tumor和BraTS2021数据集,最佳d分别为32和16。这种差异可以归因于MRI比X光片提供了更多信息量。MRI是3D扫描,可捕获详细的组织信息,从而在健康受试者之间表现出更大的差异,并包含轴向切片之间的差异。这些特性使MRI的信息量超越了X光片,需要更大的d才能有效为MRI数据集相应地扩展H(Z)。

edb8192a17923300ee66b2d7b11f34b8.png

与其他方法的对比

978a5d99b2013fdb680023c9c6774ab5.png

Tab.2比较了典型异常检测方法与具有最佳隐向量维度的AE 的性能。在这些方法中,MemA和VAE使用了特定的设计以约束隐空间,CeAE利用修复任务来帮助修复异常区域。与先前工作一致,我们默认将重建方法的隐向量维度设置为d=16。

该结果进一步支持命题2。特别地,我们观察到直接调整AE的隐向量维度 (AE[$d_{optimal}$]) 比引入隐空间约束的复杂方法具有更好的性能。AE[$d_{optimal}$]在所有四个数据集上的表现都优于VAE、MemAE和CeAE,证明了简单直接的潜在维度调整相比更复杂的隐式约束的优越性。

结论

本文对异常检测中AE的理论分析进行了研究。我们证明了适当的隐向量维度可以避免AE中的“恒等捷径”。通过利用信息论,我们揭示了AE的最优解。研究表明,在重建损失之外,对隐空间的熵施加额外约束对于防止异常区域的重建至关重要。实验验证了我们的理论,并证实了简单的隐向量维度降低能够有效约束熵和并显著提升性能。总的来说,本文为指导AE在异常检测中的设计提供了理论基础,促进了更有效、更可靠的异常检测方法的开发。

然而,目前调整隐向量维度的方法依赖于测试集上的评估结果来找到最优值,这是不妥当的。为了克服这一限制,我们未来的工作旨在量化正常训练数据的信息熵f144279db249b594c604f92c14866111.png,并设计自适应方法,动态约束H(Z)以在不同数据集上逼近c96358bb68f319124e09b4dd76eb31af.png。这种方法将消除手动选择隐向量维度的需要,并增强AE在各种异常检测场景中的适应性。

参考文献

Cai Y, Chen H, Cheng K T. Rethinking Autoencoders for Medical Anomaly Detection from A Theoretical Perspective. MICCAI, 2024.

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

医学影像和异常检测交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-医学影像、异常检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如医学影像或者异常检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值