CVPR2024 医学图像相关论文
B站:肆十二-的个人空间-肆十二-个人主页-哔哩哔哩视频 (bilibili.com)
博客:肆十二-CSDN博客
持续更新中
原始GIT地址:https://github.com/MedAIerHHL/CVPR-MIA
Recent papers about medical images published on CVPR. [Github]
To complement or correct it (highlight, oral, and so on), please contact me at 3045834499 [at] qq [dot] com or send a pull request .
Last updated: 2024/06/14
CVPR2024
Image Reconstruction (图像重建)
- QN-Mixer: A Quasi-Newton MLP-Mixer Model for Sparse-View CT Reconstruction. [Paper] [Code][Project]
- Fully Convolutional Slice-to-Volume Reconstruction for Single-Stack MRI. [Paper] [Code]
- Structure-Aware Sparse-View X-ray 3D Reconstruction.[Paper] [Code]
- Progressive Divide-and-Conquer via Subsampling Decomposition for Accelerated MRI. [Paper] [Code]
Image Resolution (图像超分)
- Learning Large-Factor EM Image Super-Resolution with Generative Priors. [Paper] [Code] [Video]
- CycleINR: Cycle Implicit Neural Representation for Arbitrary-Scale Volumetric Super-Resolution of Medical Data. [Paper] [Code]
Image Registration (图像配准)
- Modality-Agnostic Structural Image Representation Learning for Deformable Multi-Modality Medical Image Registration. [Paper]
- [Oral & Best Paper Candidate!!!] Correlation-aware Coarse-to-fine MLPs for Deformable Medical Image Registration. [Paper] [Code]
Image Segmentation (图像分割)
-
PrPSeg: Universal Proposition Learning for Panoramic Renal Pathology Segmentation. [Paper]
摘要:了解肾脏病理学的解剖结构对于推动疾病诊断、治疗评估和临床研究至关重要。复杂的肾脏系统包括多个层级的各种组成部分,包括区域(皮质、髓质)、功能单位(肾小球、肾小管)和细胞(足细胞、肾小球内的系膜细胞)。先前的研究主要忽视了临床知识中物体之间复杂的空间相互关系。在这项研究中,我们介绍了一种新颖的通用命题学习方法,称为全景肾脏病理学分割(PrPSeg),旨在通过整合广泛的肾脏解剖学知识,对肾脏内的全景结构进行全面分割。
在本文中,我们提出了(1)肾脏病理学的综合通用命题矩阵设计,便于将分类和空间关系纳入分割过程;(2)基于标记的动态头部单一网络架构,改进了部分标签图像分割,并具备未来数据扩展的能力;以及(3)解剖学损失函数,用于量化肾脏内物体间的关系。
-
Versatile Medical Image Segmentation Learned from Multi-Source Datasets via Model Self-Disambiguation. [Paper]
摘要:一个适用于通过不同设备和协议获取的图像的通用医学影像分割模型,可以简化模型的部署和维护。然而,构建这样的模型通常需要大量、多样且完全标注的数据集,由于数据整理工作繁重,这样的数据集很难获得。为了应对这一挑战,我们提出了一种成本效益高的替代方案,该方案利用仅具有部分或稀疏分割标签的多源数据进行训练,大大降低了开发通用模型的成本。我们制定了模型自我消歧、先验知识融入和不平衡缓解等策略,以应对多源数据标签不一致所带来的挑战,包括标签歧义以及模态、数据集和类别不平衡等问题。在由八个不同来源编译的用于腹部结构分割的多模态数据集上的实验结果表明,与最先进的替代方法相比,我们的方法有效且性能优越。我们预计,其节省成本的特性将优化现有标注数据的利用,并减少新数据的标注工作,这将在该领域产生重大影响。
-
Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation. [Paper] [Code]
摘要:从不同医学中心获取的医学影像普遍存在分布偏移现象,这给在实际应用中部署预训练的语义分割模型带来了重大障碍。测试时适应已证明其在处理推理过程中的跨域分布偏移方面的有效性。然而,大多数现有方法通过更新预训练模型来实现适应,这使得在遇到一系列分布偏移(即在持续测试时适应设置下)时,它们容易受到误差累积和灾难性遗忘的影响。为了克服由模型更新带来的这些挑战,本文冻结了预训练模型,并提出了基于视觉提示的测试时适应(VPTTA)方法,为每张测试图像训练一个特定的提示,以使批量归一化层中的统计信息保持一致。具体来说,我们提出了低频提示,它轻量级且仅包含少量参数,可以在单次迭代中有效训练。为了增强提示初始化,我们为VPTTA配备了一个记忆库,以便当前提示从之前的提示中获益。此外,我们设计了一种预热机制,该机制将源域和目标域的统计信息混合以构建预热统计信息,从而促进训练过程。大量实验表明,在两个医学影像分割基准任务上,我们的VPTTA优于其他最先进的方法。预训练源模型的代码和权重均可下载。
-
One-Prompt to Segment All Medical Images. [Paper] [Code]
摘要:大型基础模型以其强大的零样本泛化能力而著称,在视觉和语言应用方面表现出色。然而,将它们应用于医学影像分割领域——一个包含多种成像类型和目标标签的领域,仍然是一个悬而未决的挑战。当前的方法,如调整交互式分割模型(如Segment Anything Model,简称SAM),需要在推理过程中对每个样本进行用户提示。另外,诸如少量样本/一样本学习方法等迁移学习方法需要标注样本,从而导致高昂的成本。本文介绍了一种面向通用医学影像分割的新范式,称为“一提示分割”(One-Prompt Segmentation)。一提示分割结合了一样本方法和交互式方法的优势。在推理阶段,它仅需\textbf{一个提示样本},便可通过单次前向传播熟练处理未见过的任务。我们在64个开源医学影像数据集上训练了一提示模型,并收集了超过3000个由临床医生标注的提示。在14个未见过的数据集上进行测试,一提示模型展示了卓越的零样本分割能力,优于多种相关方法。相关代码和数据已发布。
-
Modality-agnostic Domain Generalizable Medical Image Segmentation by Multi-Frequency in Multi-Scale Attention. [Paper] [Code] [Project]
摘要:深度神经网络中的泛化能力在医学影像分割中起着至关重要的作用。然而,基于深度学习的医学影像分析往往忽视了频率方差的重要性,而频率方差是实现模态无关和领域可泛化模型的关键因素。此外,各种模型未能考虑到深度监督下多任务学习可能导致的潜在信息损失,这一因素可能会损害模型的表示能力。为了应对这些挑战,我们提出了一种用于医学影像分割的模态无关领域泛化网络(MADGNet),它包括两个关键组件:多尺度多频率注意力(MFMSA)块和集成子解码模块(E-SDM)。MFMSA块通过融入多频率和多尺度特征,改进了空间特征提取过程,尤其是在捕获边界特征方面,从而为组织轮廓和解剖结构提供了丰富的线索。此外,我们提出了E-SDM,以减轻深度监督下多任务学习中的信息损失,尤其是在从低分辨率进行大幅度上采样时。我们在六种模态和十五个数据集上评估了MADGNet的分割性能。通过大量实验,我们证明MADGNet在各种模态下始终优于最先进的模型,表现出卓越的分割性能。这证实了MADGNet作为一种在各种成像场景中均表现出色的医学影像分割解决方案的稳健性。我们的MADGNet代码可在GitHub链接中获取。
-
Diversified and Personalized Multi-rater Medical Image Segmentation. [Paper] [Code]
摘要:在医学影像分割领域,通常需要收集多位专家的意见以作出最终决策。这种临床常规操作有助于减少个人偏见。但是,当数据存在多重标注时,标准的深度学习模型往往不适用。在本文中,我们提出了一种新颖的神经网络框架,称为多评分者棱镜(MrPrism),用于从多个标签中学习医学影像分割。受迭代半二次优化的启发,所提出的MrPrism将以循环的方式结合多评分者置信度分配任务和校准分割任务。在此循环过程中,MrPrism可以学习考虑到图像语义属性的观察者间变异性,并最终收敛到一个反映观察者间一致性的自我校准分割结果。具体而言,我们提出了收敛棱镜(ConP)和发散棱镜(DivP)来迭代处理这两项任务。ConP基于DivP估计的多评分者置信度图学习校准分割。DivP基于ConP估计的分割掩码生成多评分者置信度图。实验结果表明,通过循环运行ConP和DivP,这两项任务可以实现相互改进。MrPrism的最终收敛分割结果在各种医学影像分割任务上均优于最先进的(SOTA)策略。
-
MAPSeg: Unified Unsupervised Domain Adaptation for Heterogeneous Medical Image Segmentation Based on 3D Masked Autoencoding and Pseudo-Labeling. [Paper] [Code]
摘要:鲁棒的分割对于从大规模、多中心和纵向医学扫描中提取定量指标至关重要。然而,手动标注医学扫描既昂贵又耗时,且并非在所有领域都可行。无监督域适应(UDA)是一种经过充分研究的技术,它利用来自另一个域的可用标签来缓解标签稀缺的问题。在这项研究中,我们提出了掩模自编码和伪标签分割(MAPSeg),这是一个统一的无监督域适应框架,对于异质性和体积性医学图像分割具有极大的灵活性和卓越的性能。据我们所知,这是首项系统性回顾并开发了一个框架,以解决医学图像分割中的四种不同域偏移问题的研究。更重要的是,MAPSeg是首个可以应用于集中式、联邦式和测试时无监督域适应,同时保持相当性能的框架。我们在一个私有的婴儿脑部MRI数据集和一个公开的心脏CT-MRI数据集上,将MAPSeg与之前的最先进方法进行了比较,MAPSeg的表现远超其他方法(在私有MRI数据集上Dice系数提高了10.5,在公开的CT-MRI数据集上提高了5.7)。MAPSeg具有极大的实用价值,可应用于现实世界的问题。GitHub地址:此https URL。
-
Adaptive Bidirectional Displacement for Semi-Supervised Medical Image Segmentation. [Paper] [Code]
摘要:一致性学习是解决半监督医学图像分割(SSMIS)中未标记数据的核心策略,它强制模型在扰动下产生一致的预测。然而,目前的大多数方法仅专注于使用特定的单一扰动,这只能应对有限的情况,而同时采用多种扰动很难保证一致性学习的质量。在本文中,我们提出了一种自适应双向位移(ABD)方法来解决上述挑战。具体来说,我们首先为未标记数据设计了一种基于可靠预测置信度的双向补丁位移来生成新样本,这可以有效地抑制不可控区域,同时仍然保留输入扰动的影响。同时,为了强制模型学习潜在的不可控内容,我们为标记图像提出了一种具有反向置信度的双向位移操作,该操作生成了包含更多不可靠信息的样本,以促进模型学习。大量实验表明,ABD在SSMIS方面取得了最新的性能,显著提升了不同的基线。源代码可在此https URL获取。
-
Cross-dimension Affinity Distillation for 3D EM Neuron Segmentation. [Paper] [Code]
摘要:从电子显微镜(EM)图像体积中进行准确的3D神经元分割对于神经科学研究至关重要。然而,复杂的神经元形态往往导致过度合并和过度分割的结果。最近的进展利用3D卷积神经网络(CNN)来预测具有更高准确性的3D亲和度图,但仍面临两个挑战:计算成本高和输入尺寸有限,尤其是对于大规模EM图像体积的实际部署。为了解决这些挑战,我们提出了一种新方法,利用轻量级的2D卷积神经网络进行高效的神经元分割。我们的方法采用2D Y形网络,从相邻的2D切片生成两个嵌入图,然后通过测量它们的嵌入距离将其转换为亲和度图。虽然2D网络能够更好地捕获具有更大输入尺寸的切片内的像素依赖性,但它忽略了切片间的依赖性。为了克服这一点,我们引入了一种跨维度亲和度蒸馏(CAD)策略,该策略通过确保3D教师网络和2D学生网络之间输出亲和度图的一致性,将切片间的依赖知识从3D教师网络转移到2D学生网络。此外,我们设计了一个特征嫁接交互(FGI)模块,通过将2D学生网络的嵌入图嫁接到3D教师网络的嵌入图上来增强知识转移。在多个EM神经元分割数据集上进行了大量实验,包括我们自己新建立的一个数据集,结果表明,我们的方法在性能上优于最新的方法。
-
ToNNO: Tomographic Reconstruction of a Neural Network’s Output for Weakly Supervised Segmentation of 3D Medical Images.[Paper] [Code]
摘要:为训练分割模型标注大量的3D医学图像是一项耗时的工作。弱监督语义分割的目标是训练分割模型,而无需使用任何真实分割掩码。我们的工作解决的是仅提供图像级别的类别标签的情况,这些标签表明特定感兴趣区域(如肿瘤或病变)的存在与否。大多数现有方法依赖于类别激活映射(CAM)。我们提出了一种新的方法,即ToNNO,它基于神经网络输出的层析重建。我们的技术从输入的3D体积中以不同角度提取一系列切片,将这些切片输入到2D编码器,并应用逆Radon变换来重建编码器预测的3D热图。这种通用方法允许使用任何2D图像编码器在3D体积上执行密集预测任务。我们将其应用于弱监督医学图像分割,通过训练2D编码器为包含感兴趣区域的切片输出高值。我们在四个大规模医学图像数据集上进行了测试,并优于2D CAM方法。然后,我们通过将层析重建与CAM方法相结合来扩展ToNNO,提出了平均CAM和层析CAM,这些方法获得了更好的结果。
-
Versatile Medical Image Segmentation Learned from Multi-Source Datasets via Model Self-Disambiguation. [Paper] [Code]
摘要:一种适用于通过不同设备和协议获取的图像的通用医学影像分割模型,可以促进模型的部署和维护。然而,构建这样一个模型通常需要大量、多样且完全标注的数据集,而由于数据整理工作繁重,这样的数据集很难获得。为了应对这一挑战,我们提出了一种成本效益高的替代方案,即利用仅有部分或稀疏分割标签的多源数据进行训练,从而大幅降低开发通用模型的成本。我们设计了模型自我消歧、先验知识融入和不平衡缓解策略,以应对与标签不一致的多源数据相关的挑战,包括标签歧义以及模态、数据集和类别不平衡问题。在由八个不同来源编译的用于腹部结构分割的多模态数据集上进行的实验结果表明,与最先进的替代方法相比,我们的方法有效且具有卓越的性能。我们预计,其节省成本的特点(优化现有标注数据的利用并减少新数据的标注工作)将在该领域产生重大影响。
-
Teeth-SEG: An Efficient Instance Segmentation Framework for Orthodontic Treatment based on Anthropic Prior Knowledge. [Paper] [Code]
摘要:在二维图像中进行牙齿定位、分割和标注在现代牙科中具有巨大潜力,能够增强牙齿诊断、治疗规划和基于人群的口腔健康研究。然而,一般的实例分割框架存在不足,原因有三:1)一些牙齿形状之间的细微差异(例如,上颌第一前磨牙和第二前磨牙);2)不同受试者的牙齿位置和形状变化;3)牙列中存在异常(例如,龋齿和无牙症)。为了解决这些问题,我们提出了一种基于ViT的框架,名为TeethSEG,它由堆叠的多尺度聚合(MSA)块和人类先验知识(APK)层组成。具体来说,为了构建这两个模块,我们设计了1)一种独特的基于排列的上采样器,以确保高效率,同时通过2)多头自/交叉门控层来建立清晰的分割边界,以强调特定语义,同时保持标记嵌入之间的差异性。此外,我们收集了3)首个开源的口内图像数据集IO150K,其中包含超过15万张口内照片,所有照片均由正畸医生使用人机混合算法进行标注。在IO150K上的实验表明,我们的TeethSEG在牙齿图像分割方面的表现优于最先进的分割模型。
-
Tyche: Stochastic in Context Learning for Universal Medical Image Segmentation. [Paper] [Code]
摘要:现有的基于学习的医学影像分割解决方案存在两个重要缺陷。首先,对于大多数新的分割任务,都必须训练或微调一个新模型。这需要大量的资源和机器学习专业知识,因此对于医学研究人员和临床医生来说往往不可行。其次,大多数现有的分割方法只为给定图像生成一个单一的确定性分割掩码。然而,在实践中,对于什么构成正确的分割往往存在相当大的不确定性,不同的专家注释者通常会以不同的方式对同一图像进行分割。我们通过Tyche模型解决了这两个问题,该模型使用上下文集为以前未见过的任务生成随机预测,而无需重新训练。Tyche与其他上下文分割方法在两个重要方面有所不同。(1)我们引入了一种新颖的卷积块架构,能够实现预测之间的交互。(2)我们引入了上下文测试时增强,这是一种提供预测随机性的新机制。结合适当的模型设计和损失函数,Tyche能够为新的或未见过的医学影像和分割任务预测一组合理且多样的分割候选,而无需重新训练。
-
Constructing and Exploring Intermediate Domains in Mixed Domain Semi-supervised Medical Image Segmentation. [Paper] [Code]
摘要:在医学影像分割中,标注有限和领域偏移是两个普遍存在的挑战。传统的半监督分割和无监督领域自适应方法分别解决了其中一个问题。然而,标注有限和领域偏移并存的情况相当常见,这促使我们引入了一个新颖且具有挑战性的场景:混合领域半监督医学影像分割(MiDSS)。在该场景下,我们处理了来自多个医学中心的数据,其中一个领域仅有有限的标注,而来自多个领域的大量数据则未标注。我们发现,解决问题的关键在于如何在领域偏移的情况下,为未标注数据生成可靠的伪标签,同时利用已标注数据。为了解决这个问题,我们在图像之间采用统一复制粘贴(UCP)方法来构建中间领域,从而促进从已标注数据领域到未标注数据领域的知识迁移。为了充分利用中间领域内的信息,我们提出了一种对称引导训练策略(SymGD),它通过合并来自中间样本的伪标签,为未标注数据提供额外的直接引导。随后,我们引入了一种训练过程感知的随机幅度混合(TP-RAM),逐步将风格转换组件融入中间样本。与现有的最先进方法相比,我们的方法在三个公共数据集上的前列腺数据集上实现了13.57%的Dice分数显著提升。我们的代码可在此https URL上获得。
-
S2VNet: Universal Multi-Class Medical Image Segmentation via Clustering-based Slice-to-Volume Propagation. [Paper] [Code]
摘要:医学图像分割领域的突出解决方案通常针对自动或交互式设置进行定制,这导致将一个任务中取得的进展应用到另一个任务时面临挑战。这也需要为每个任务单独建模,从而增加了训练时间和参数数量。为了解决上述问题,我们推出了S2VNet,这是一个通用框架,利用切片到体积(Slice-to-Volume)传播技术,在单个模型和一次训练过程中统一了自动/交互式分割。受基于聚类的分割技术的启发,S2VNet通过从上一切片的聚类结果初始化聚类中心,充分利用了体积数据的切片结构。这使得从先前切片中获得的知识能够辅助当前切片的分割,并进一步仅使用二维网络高效地实现远程切片之间的通信。此外,该框架无需任何架构更改即可轻松实现交互式分割,只需从用户输入初始化质心即可。与主流的3D解决方案相比,S2VNet在推理速度和内存消耗方面表现出色。它还可以处理多类别交互,每个类别用于初始化不同的质心。在三个基准测试中的实验表明,无论是在自动还是交互式设置下,S2VNet的性能都超越了针对特定任务的解决方案。
-
EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation.[Paper] [Code]
摘要:在医学影像分割中,一个高效且有效的解码机制至关重要,尤其是在计算资源有限的情况下。然而,这些解码机制通常伴随着高昂的计算成本。为了解决这一问题,我们推出了EMCAD,这是一种新的高效多尺度卷积注意力解码器,旨在同时优化性能和计算效率。EMCAD采用独特的多尺度深度卷积块,通过多尺度卷积显著增强特征图。EMCAD还采用了通道、空间和分组(大核)门控注意力机制,这些机制在捕捉复杂空间关系的同时,能够专注于显著区域。通过使用分组和深度卷积,EMCAD非常高效且可扩展性好(例如,使用标准编码器时,仅需1.91M参数和0.381G FLOPs)。我们在属于六个医学影像分割任务的12个数据集上进行了严格的评估,结果显示EMCAD实现了最先进的(SOTA)性能,参数数量(#Params)和浮点运算次数(#FLOPs)分别减少了79.4%和80.3%。此外,EMCAD对不同编码器的适应性和在分割任务中的多功能性进一步确立了其作为一种有前途的工具的地位,推动了医学影像分析向更高效和准确的方向发展。我们的实现可在此https URL上获得。
-
Training Like a Medical Resident: Context-Prior Learning Toward Universal Medical Image Segmentation.[Paper] [Code]
摘要:临床成像工作流程的主要重点是疾病的诊断和治疗,这导致医学影像数据集与特定的临床目标紧密相关。这种情况导致了普遍的做法,即开发针对特定任务的分割模型,而没有从广泛的成像队列中获得洞见。受医学放射科住院医师培训计划的启发,我们提出转向通用医学影像分割,这是一种范式,旨在利用临床目标、身体部位和成像模式之间的多样性和共性,构建医学影像理解基础模型。为了实现这一目标,我们开发了Hermes,这是一种新的上下文先验学习方法,旨在解决医学影像分割中数据异质性和标注差异的挑战。在涵盖五种成像模式(CT、PET、T1、T2和动态MRI)和多个身体部位的十一个不同数据集(2438张3D图像)的大型集合中,我们证明了与传统范式相比,通用范式在单个模型中处理多个任务的优势。通过利用任务之间的协同作用,Hermes在所有测试数据集上均实现了最先进的性能,并展示了出色的模型可扩展性。另外两个数据集的结果表明,Hermes在迁移学习、增量学习和下游任务泛化方面表现出色。Hermes学习的先验知识展现了一种吸引人的特性,能够反映任务和模式之间的复杂关系,这与放射学中的既定解剖和成像原理相一致。代码可在以下https URL获得。
-
ZePT: Zero-Shot Pan-Tumor Segmentation via Query-Disentangling and Self-Prompting. [Paper] [Code]
摘要:医学影像分析中的长尾分布问题反映了常见病症的高发率和罕见病症的低发率,这为开发能够识别训练过程中未遇到的罕见或新型肿瘤类别的统一模型带来了重大挑战。在本文中,我们提出了一种基于查询解耦和自提示的新型零样本全肿瘤分割框架(ZePT),用于分割训练集之外的未见肿瘤类别。ZePT将对象查询解耦为两个子集,并在两个阶段进行训练。首先,它通过学习一种对象感知特征分组策略来获取一组用于器官分割的基本查询,该策略能够收集器官级别的视觉特征。随后,它精炼另一组高级查询,这些查询专注于自动生成的视觉提示,用于未见肿瘤的分割。此外,我们在特征层面引入了查询-知识对齐,以增强每个查询的判别性表示和泛化能力。在各种肿瘤分割任务上的广泛实验表明,ZePT的性能优于之前的同类方法,并证明了其在现实环境中进行零样本肿瘤分割的潜力。
-
[Oral!!!] Correlation-aware Coarse-to-fine MLPs for Deformable Medical Image Registration. [Paper] [Code]
摘要:我们提出了一种新颖的超声心动图视频分割模型,该模型通过将分割任意掩码(SAM)技术应用于医学视频,以解决超声视频分割领域长期存在的一些挑战,包括(1)大量的斑点噪声和伪影,(2)极其模糊的边界,以及(3)帧间目标对象的大幅变化。我们模型的核心技术是一种具有时间感知和抗噪能力的提示方案。具体而言,我们采用了一种包含空间和时间信息的时空记忆体,来提示当前帧的分割,因此我们称该模型为MemSAM。在提示过程中,携带时间线索的记忆体按顺序逐帧提示视频分割。同时,由于记忆提示传播的是高级特征,它避免了由掩码传播引起的误识别问题,并提高了表示的一致性。为了解决斑点噪声的挑战,我们进一步提出了一种记忆增强机制,该机制利用预测的掩码来提高存储前记忆的质量。我们在两个公开数据集上对我们的方法进行了广泛评估,并证明了与现有模型相比,我们的方法具有最先进的性能。特别是,我们的模型在有限注释的情况下实现了与完全监督方法相当的性能。代码已公开发布。
-
PH-Net: Semi-Supervised Breast Lesion Segmentation via Patch-wise Hardness. [Paper] [Code] [Video]
摘要:我们提出了一种新颖的乳腺超声(BUS)图像分割半监督框架,这是一项极具挑战性的任务,原因在于(1)乳腺病变的大规模和形状变化,以及(2)由乳腺超声图像中的大量斑点噪声和伪影导致的极其模糊的边界。尽管现有模型在这一任务上取得了一定进展,但我们认为,目前进一步改进的主要瓶颈在于我们仍然无法很好地处理困难案例。我们的框架旨在突破这一瓶颈,它包括两个创新组件:自适应补丁增强方案和困难补丁对比学习模块。我们首先通过计算每个补丁的平均熵来识别困难补丁,然后在执行随机补丁切割混合时屏蔽这些困难补丁,以防止它们被裁剪掉。这种方案能够防止在强增强下对困难区域进行不充分的训练。我们进一步开发了一种新的困难补丁对比学习算法,通过对困难补丁中的像素应用额外的对比度,将模型的注意力引导到困难区域,从而进一步提高在困难案例上的分割性能。我们在两个著名的乳腺超声数据集上展示了我们的框架相较于最新方法的优越性,在不同标注条件下均实现了更好的性能。代码已可用。
Image Generation (图像生成)
- Learned representation-guided diffusion models for large-image generation. [Paper]
- MedM2G: Unifying Medical Multi-Modal Generation via Cross-Guided Diffusion with Visual Invariant. [Paper]
- Towards Generalizable Tumor Synthesis. [Paper][Code]
- Data-Efficient Unsupervised Interpolation Without Any Intermediate Frame for 4D Medical Images. [Paper][Code]
Image Classification (图像分类)
- Systematic comparison of semi-supervised and self-supervised learning for medical image classification. [Paper][Code]
- Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images. [Paper][Code]
Federated Learning(联邦学习)
- Think Twice Before Selection: Federated Evidential Active Learning for Medical Image Analysis with Domain Shifts. [Paper]
Medical Pre-training $ Foundation Model(预训练&基础模型)
- VoCo: A Simple-yet-Effective Volume Contrastive Learning Framework for 3D Medical Image Analysis. [Paper][Code]
- MLIP: Enhancing Medical Visual Representation with Divergence Encoder and Knowledge-guided Contrastive Learning. [Paper]
- [Highlight!] Continual Self-supervised Learning: Towards Universal Multi-modal Medical Data Representation Learning. [Paper][Code]
- Bootstrapping Chest CT Image Understanding by Distilling Knowledge from X-ray Expert Models. [Paper][Code]
- Unleashing the Potential of SAM for Medical Adaptation via Hierarchical Decoding. [Paper][Code]
- Low-Rank Knowledge Decomposition for Medical Foundation Models. [Paper][Code]
Vision-Language Model (视觉-语言)
- PairAug: What Can Augmented Image-Text Pairs Do for Radiology? [Paper][Code]
- Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Matching Framework. [Paper][Code]
- Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images. [Paper][Code]
- OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM. [Paper][Code]
- CARZero: Cross-Attention Alignment for Radiology Zero-Shot Classification. [Paper][Code]
- FairCLIP: Harnessing Fairness in Vision-Language Learning [Paper][Code][推送]
Computational Pathology (计算病理)
- Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction. [Paper]
- Feature Re-Embedding: Towards Foundation Model-Level Performance in Computational Pathology. [Paper][Code]
- PrPSeg: Universal Proposition Learning for Panoramic Renal Pathology Segmentation. [Paper]
- ChAda-ViT: Channel Adaptive Attention for Joint Representation Learning of Heterogeneous Microscopy Images. [Paper][Code]
- SI-MIL: Taming Deep MIL for Self-Interpretability in Gigapixel Histopathology. [Paper][Code]
- Transcriptomics-guided Slide Representation Learning in Computational Pathology [Paper][Code]
Others
- Seeing Unseen: Discover Novel Biomedical Concepts via Geometry-Constrained Probabilistic Modeling. [Paper]
- FocusMAE: Gallbladder Cancer Detection from Ultrasound Videos with Focused Masked Autoencoders. [Paper][Code]
[[Code]:
[Code]: