何如千泷-CSDN博客

原创【论文阅读】Invasive carcinoma segmentation in whole slide images usingMS-ResMTUNet

本文提出了一种新型神经网络架构ResMTUnet，用于乳腺病理切片中浸润性癌区域的自动识别与分割。该模型结合视觉变换器和卷积神经网络的优势，通过多任务学习同时进行癌症识别和分割。为解决浸润性癌与导管原位癌形态相似导致的识别难题，作者进一步设计了多尺度输入模型MS-ResMTUNet，结合条件随机场技术提升分割精度。实验表明，该方法优于现有技术，能有效区分易混淆的癌变区域，为乳腺癌病理诊断提供了自动化解决方案。

2026-01-22 16:50:20 720

原创【论文阅读】DHUnet: Dual-branch hierarchical global–local fusion network for whole slide image segmentatio

本文提出了一种双分支层次化特征融合网络DHUnet，用于H&E染色全切片图像的肿瘤分割。该模型结合Swin Transformer的全局语义捕获能力和ConvNeXt的局部细节提取优势，通过U形结构实现多层次特征融合。创新性地设计了跨尺度扩展层逐步恢复图像分辨率，并引入全局-局部融合模块优化特征交互。实验表明，DHUnet在多种癌症数据集上展现出优异的泛化性能和分割精度，为临床病理诊断提供了可靠的自动化解决方案。代码已开源在GitHub平台。

2026-01-20 16:51:22 1150

原创【论文阅读】Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reason

Lingshu医学多模态大模型

2026-01-16 10:07:34 1172

原创【论文阅读】Hybrid CNN-Transformer Network With Circular Feature Interaction for Acute Ischemic Stroke Les

研究背景与挑战病灶分割是诊断急性缺血性脑卒中（AIS）的一个基础且关键的步骤。NCCT仍然是测量AIS病灶的主流成像模态，因为它获取速度快且成本低。然而，在NCCT图像上进行AIS病灶分割非常困难，主要原因在于NCCT图像存在低对比度、噪声和伪影。提出的解决方案和模型架构：为了在NCCT上实现准确的AIS病灶分割，本研究提出了一种混合卷积神经网络（CNN）和Transformer网络，并结合了循环特征交互和双侧差异学习。该模型主要由以下几个部分组成：模型包含。

2025-12-31 17:14:21 1044

原创【论文阅读】LW-CTrans: A lightweight hybrid network of CNN and Transformer for 3D medical image segmentati

本文提出了一种轻量级CNN-Transformer混合网络LW-CTrans，用于3D医学图像分割。针对现有方法在微小病灶分割和参数量方面的不足，LW-CTrans创新性地设计了动态Stem模块、多路径卷积块(MPConv)和多视角池化Transformer(MVPFormer)，在不同编码阶段分别优化局部和全局特征提取。解码器采用多阶段特征融合进一步减少参数量。在卒中病变、胰腺癌和脑肿瘤三个分割任务上的实验表明，LW-CTrans仅用2.08-2.21M参数即达到62.35-83.75%的Dice分数，性

2025-12-30 17:38:31 1194

原创【论文阅读】MediCLIP: Adapting CLIP for Few-shot Medical Image Anomaly Detection

本文提出MediCLIP，一种基于CLIP模型的少样本医学图像异常检测方法。针对医学数据稀缺和标注成本高的问题，该方法通过自监督微调策略，利用合成异常图像模拟疾病模式，有效迁移CLIP的泛化能力。MediCLIP采用可学习提示和适配器技术，避免复杂提示工程并实现多尺度病变定位。在三个医学数据集上的实验表明，仅需少量正常图像训练，其性能即超越现有方法约10%，在最具挑战的CheXpert数据集上，使用不足1%训练数据即可达到全样本方法94%的性能。此外，MediCLIP展现出优异的零样本迁移能力，有望成为统一

2025-12-24 18:12:36 1000

原创 Qwen2.5-VL模型架构解读——模型部分

（或视频帧）产生的视觉 token 序列。将输入的图像或视频帧（已预切成固定大小的时空 patch）线性投影为统一维度的 token。注意：没有减去均值（no centering），这是与标准 LayerNorm 的主要区别。，采用的是现代大语言模型（如 LLaMA、Qwen、Mistral 等）中广泛使用的。，采用的是现代大语言模型（如 LLaMA、Qwen、Mistral 等）中广泛使用的。= 在合并后的 token 网格中，每个窗口应包含的 token 数量（边长）。将位置信息注入到注意力机制的。

2025-12-23 12:30:47 1479

原创 Qwen2.5-VL模型架构解读——数据处理部分

Qwen2.5-VL数据处理解析

2025-12-19 16:12:30 820

原创【论文阅读】PLUS: Plug-and-Play Enhanced Liver Lesion Diagnosis Model on Non-Contrast CT Scans

摘要：针对非对比增强CT（NCCT）中肝脏局灶性病变（FLL）诊断的挑战，本研究提出PLUS框架，一种即插即用的增强型3D分割模型。PLUS通过分层双重注意力机制（HDA）实现肝脏全局与病灶局部特征的双向交互，并利用基于图的先验推理（GPR）模块整合解剖先验知识。实验基于8,651例患者数据，结果显示PLUS显著提升了诊断性能：病灶级F1分数提高5.66%，恶性与良性患者级诊断分别提升6.26%和4.03%。该框架兼容现有分割模型，有望推动基于NCCT的大规模肝癌筛查。（字数：149）

2025-12-12 16:32:47 805

原创【论文阅读】Ultrasound Report Generation with Cross-Modality Feature Alignment via Unsupervised Guidance

文章提出了一个用于超声报告自动生成的新颖框架，旨在减轻临床医生的工作负担。核心框架和方法：该研究提出了一种结合了无监督学习和有监督学习的方法来生成超声报告。无监督学习的应用：框架利用无监督学习（聚类方法）从超声文本报告中提取潜在知识（prior knowledge）。这些知识被用作先验信息，以指导模型的训练过程，特别是帮助对齐视觉特征和文本特征，从而解决医学图像中固有的特征差异问题。报告生成模块（Report Generator, RG）

2025-12-11 10:51:19 827

原创【论文阅读】Disentangled and Interpretable Multimodal Attention Fusion for Cancer Survival Prediction

摘要本文提出了一种解纠缠且可解释的多模态注意力融合框架(DIMAF)，用于整合全切片图像(WSI)和转录组数据以提升癌症生存预测性能。现有方法常混淆模态共有和特有信息，导致可解释性降低。DIMAF通过分离模态内和模态间注意力机制，分别学习模态特有和共享表示，并引入距离相关性损失促进表示解纠缠。结合Shapley值解释方法，模型可评估不同表示对预测的贡献。在四个公开数据集上的实验表明，DIMAF在预测性能和解纠缠效果上分别提升1.85%和23.7%，同时提供了更好的生物学特征解释能力。该方法通过结构化表示学

2025-12-10 09:31:42 828

原创【论文阅读】BGF-YOLO: Enhanced YOLOv8 with Multiscale Attentional Feature Fusion for Brain Tumor

摘要：本文提出BGF-YOLO，一种针对脑肿瘤检测的改进YOLO模型，通过引入双层路由注意机制（BRA）、通用特征金字塔网络（GFPN）和第四检测头，显著提升检测性能。在Br35H数据集上的实验表明，BGF-YOLO相比YOLOv8x提高了4.7%的mAP50，达到业界领先水平。模型通过增强特征融合能力、优化注意力机制和扩展尺度覆盖范围，有效提升了不同大小脑肿瘤的检测精度。

2025-10-31 11:25:47 1008

原创【论文阅读】SelfReg-UNet: Self-Regularized UNet for Medical Image Segmentation

本文提出了一种改进UNet医学图像分割性能的方法，通过分析发现UNet存在监督不对称和特征冗余问题。作者提出语义一致性正则化(SCR)和内部特征蒸馏(IFD)两项技术：SCR利用解码器深层特征监督编码器，IFD通过浅层特征引导深层特征以减少冗余。该方法无需修改网络结构，计算成本低。实验在四个医学图像数据集上验证，UNet的Dice系数提升1.75%-5.48%，SwinUNet提升1.41%-3.42%，均优于现有方法。该工作为优化UNet架构提供了新思路。

2025-10-29 09:23:45 1078

原创【论文阅读】SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation

SegMamba：高效建模3D医学图像长距离依赖的新型分割框架本文提出SegMamba，一种基于状态空间模型（SSM）的3D医学图像分割方法。针对Transformer在全局特征建模时计算成本高的问题，SegMamba创新性地引入Tri-orientated Mamba模块，通过三向处理高效捕获三维空间的长距离依赖。方法包含三个核心组件：1）Gated Spatial Convolution增强空间特征表示；2）特征级不确定性估计模块优化多尺度特征重用；3）新构建的CRC-500结直肠癌CT数据集（500

2025-10-28 09:30:09 1034

原创【论文阅读】EchoVLM: Dynamic Mixture-of-Experts Vision-Language Model for Universal Ultrasound

摘要（150字）：本文提出EchoVLM，首个专为超声影像设计的视觉语言模型。针对传统诊断依赖医生经验、效率低的问题，EchoVLM创新性地采用双路径MoE架构，结合冻结的基础模型参数与动态路由的超声专家网络，实现多器官（甲状腺、乳腺等7类）病变的高效识别。通过15家医院的20万病例数据与180万指令微调样本训练，模型在报告生成任务中BLEU-1指标超越Qwen2-VL达10.15分，显著提升诊断自动化水平，为临床提供高效、准确的辅助工具。代码已开源。关键词：超声影像分析、视觉语言模型、混合专家、多任

2025-10-27 10:56:37 944

原创【论文阅读】Qwen2.5-VL Technical Report

Qwen2.5-VL：多模态视觉语言模型的重大升级本文介绍了Qwen2.5-VL视觉语言模型的创新突破。该模型在基础视觉能力（目标识别、文档解析）和交互功能上实现显著提升，支持长视频理解与精确定位。关键技术包括：1）动态分辨率处理，原生支持不同尺寸图像和长视频输入；2）绝对时间编码实现秒级事件定位；3）新型动态分辨率ViT架构结合窗口注意力机制，提升计算效率。模型提供72B/7B/3B多种规模，72B版本性能媲美GPT-4o，特别擅长文档图表理解。创新点还包括：细粒度视觉感知、多模态旋转位置编码、4万亿t

2025-10-24 10:54:49 1753

原创【论文阅读】LKM-UNet: Large Kernel Vision Mamba for Medical Segmentation elevates SSMs beyond Convolution

医学图像分割新突破：LKM-UNet模型实现高效全局-局部建模医学图像分割是辅助临床诊疗的重要技术，但现有方法在全局信息捕获与计算效率之间存在矛盾。本研究提出创新性的LKM-UNet模型，通过融合大核Mamba模块与U-Net架构，实现了高效的全局-局部特征建模。该模型核心创新包括： 1）设计层次化双向Mamba块（LM块），结合像素级和块级状态空间建模，分别处理局部细节和全局依赖； 2）采用大尺寸核（最大40×40）拓展感受野，同时保持线性计算复杂度； 3）双向扫描机制增强空间位置感知。实验证明，该模型

2025-10-23 09:39:45 915

原创【论文阅读】Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining

摘要：本文提出Swin-UMamba，一种基于Mamba的医学图像分割模型，通过整合ImageNet预训练和多尺度特征建模，显著提升分割性能。针对现有CNN和ViT在长距离依赖建模与计算效率上的不足，该方法利用方向序列展开和状态空间模型（S6）高效捕捉全局上下文，同时引入轻量化变体Swin-UMamba†降低参数量（28M）和计算成本（18.9G FLOPs）。在腹部MRI、内窥镜等数据集上的实验表明，模型平均性能提升2.72%，验证了预训练对Mamba架构的有效性。

2025-10-22 11:12:53 1481

原创【论文阅读】MMUNet: Morphological feature enhancement network for colon cancer segmentation in pathologica

本文提出了一种结合深度可分离卷积与形态学方法的U形分割网络MMUNet，用于结肠癌病理图像分割。针对细胞形状多样、边界模糊的挑战，该方法通过多尺度卷积块增强特征提取能力，引入形态学跳跃连接和边缘增强模块优化边界识别。在Glas、CoCaHis和Colon三个数据集上的实验表明，MMUNet在参数较少的情况下仍取得优异性能，Dice系数分别达到92.76%、86.11%和91.61%。该研究为医学图像分割提供了一种高效精准的解决方案，代码已开源。

2025-10-20 17:04:59 1032

原创【论文阅读】PathMR: Multimodal Visual Reasoning for Interpretable Pathology Analysis

摘要： PathMR提出了一种基于细胞层面的多模态视觉推理框架，用于病理图像分析，能够同时生成专家级诊断解释和细胞分布预测。该模型通过强化视觉-文本特征对齐，解决了现有方法在分割碎片化和解释性不足的问题。研究在PathGen和新构建的GADVR数据集（含19万癌症切片和55万图像-文本对）上验证了模型性能，实验表明PathMR在文本生成质量、分割准确率和跨模态对齐方面均优于现有方法。关键贡献：首个病理像素级视觉推理模型：结合细胞级分割与语义一致的诊断描述，提升可解释性。 GADVR数据集：提供像素级核注

2025-10-17 16:39:32 1202

原创【论文阅读】Ultrasound Report Generation with MultimodalLarge Language Models for Standardized Texts

本文提出了一种多器官、多语言的超声报告自动生成框架，旨在解决超声图像变异性大、依赖操作人员且缺乏标准化数据集等挑战。该方案采用基于片段的多语言训练技术，结合ViT视觉编码器的选择性微调，实现了影像与文本的高效对齐。通过构建中英双语数据集和模块化报告结构，模型在多器官任务中表现出色，相比传统方法(KMVE)在BLEU、ROUGE-L和CIDEr等指标上提升显著（分别达2%、3%和15%）。实验表明，该方法能生成临床准确、语义一致的报告，有效减少遗漏和错误，为超声报告的自动化与标准化提供了可行方案。

2025-10-16 11:28:22 774

原创【论文阅读】Deep Multi-Magnification Networks for Multi-Class Breast Cancer Image Segmentation

乳腺癌是美国女性中最常见的癌症之一。对手术切除标本的病理分析非常重要，用于评估手术是否彻底切除肿瘤，以及对未来的治疗决策具有指导意义。传统上，这些分析由病理学家手工通过显微镜观察用甲醛固定处理的组织切片完成。随着数字化技术的发展，数字病理学使得玻璃切片可以被扫描成数字图像（全扫描slide images）。计算机辅助病理技术，尤其是深度学习的发展，使得可以自动分析这些数字全扫描图像，极大地辅助病理学家的诊断工作。然而，这些全扫描图像通常容量极大，达到数十亿像素，直接进行整体处理在计算和存储上都非常不现实。

2025-10-13 21:35:22 890

原创【论文阅读】HookNet: multi-resolution convolutional neural networks for semantic segmentation in histopath

本文提出了HookNet，一种用于组织病理学全切片图像（whole-slide images, WSIs）语义分割的深度学习模型。该模型通过多个编码器-解码器（encoder-decoder）分支，结合了上下文信息和细节信息。具体做法是使用多个不同分辨率的同心块每个分支处理不同视野范围的图像区域，将中间特征表示通过hooking机制相互连接融合。为了确保不同分支的特征在空间位置上的一致性，作者提出了限制条件，以保证钩取（hooking）过程中像素级别的特征对齐。

2025-10-11 16:42:35 726

原创【论文阅读】CellViT: Vision Transformers for precise cell segmentation and classification

在临床上，检测和分割组织切片中的细胞核对于疾病诊断和研究具有重要意义。然而，由于细胞核在染色强度和大小上的差异、边界重叠以及细胞核聚集等问题，这是一项具有挑战性的任务。传统的方法主要依赖卷积神经网络（CNN），但本文探索了基于Transformer的网络在这一任务中的潜力。提出了一种名为CellViT的深度学习架构，基于Vision Transformer（ViT），实现细胞核的自动实例分割。

2025-10-09 15:11:56 639

原创【论文阅读】Perspective+ Unet: Enhancing Segmentation with Bi-Path Fusion and Efficient Non-Local Attentio

摘要：本文提出Perspective+ Unet，一种创新的医学图像分割方法，通过双路径编码器、高效非局部Transformer块（ENLTB）和空间跨尺度集成器（SCSI）解决现有技术的局限性。双路径编码器结合标准卷积与膨胀卷积，平衡局部细节与全局信息；ENLTB利用核函数近似技术降低计算复杂度，高效捕获长距离依赖；SCSI融合多尺度特征，优化全局与局部信息整合。在ACDC和Synapse数据集上的实验表明，该方法显著提升了分割精度，为临床诊断和治疗规划提供了更可靠的工具。

2025-09-30 09:59:10 962

原创【论文阅读】ASPS: Augmented Segment Anything Model for Polyp Segmentation

背景：息肉分割对于结直肠癌的早期诊断非常关键。最近出现的SAM展现了在大规模数据集预训练基础上的巨大潜力，有望推动息肉分割技术的进步。SAM结构偏向：作为基于Transformer的模型，偏重于全局和低频信息，可能忽略细节，从而引入偏差。领域差异：SAM是在自然图像上预训练的，直接应用到内窥镜图像时，表现出较差的性能，导致预测不精准、置信度偏差。方法：为解决这些问题，本文提出：结合可训练的CNN编码器（增强局部和高频信息）与固定的视觉编码器，实现域知识的融合，弥补SAM在细节捕获上的不足。：利用。

2025-09-29 20:45:54 953

原创【论文阅读】Segment Anything

摘要：本文提出Segment Anything Model (SAM)，一种可提示的视觉基础模型，支持零样本图像分割。SAM通过图像编码器、提示编码器和掩码解码器实现高效交互分割，能处理点、框、文本等多样化提示。为训练SAM，作者构建了SA-1B数据集（1100万图片、11亿掩码），采用三阶段数据引擎（手动→半自动→全自动）确保标注质量。实验表明，SAM在零样本迁移任务中性能优越，掩码质量接近人工标注。该工作为通用视觉分割模型提供了新范式，代码和数据集已开源。

2025-09-28 11:54:49 925

原创【BUG】ValueError: Unable to find out axis 2.0 in start_ornt

这个错误信息来自nibabel的这通常说明你传给start_orntend_ornt。

2025-07-16 11:11:05 325

原创【论文阅读】Med3DVLM: An Efficient Vision-Language Model for 3D Medical Image Analysis

视觉语言模型 (VLMs) 在 2D 医学图像分析中显示出了潜力，但将其扩展到 3D 仍然面临挑战，因为3D数据的高计算需求以及将 3D 空间特征与临床文本对齐的困难。我们提出了Med3DVLM，这是一种3D VLMDCFormer，一种高效的编码器，使用分解的 3D 卷积来捕获规模上的细粒度空间特征；SigLIP，一种对比学习策略，采用成对 sigmoid 损失，在不依赖于大量负样本的情况下改善图像与文本的对齐一种投影器，将低级和高级图像特征与文本嵌入相融合，以实现更丰富的多模态表示。

2025-06-17 21:16:06 1798 1

原创【论文阅读】Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models

医学图像分割可以量化目标结构的大小和形状，从而辅助疾病诊断、预后评估、手术规划和疾病理解。**随着自然图像-文本对的视觉-语言模型（Vision-Language Models, VLM）取得重要进展，研究者们提出了视觉-语言分割模型（Vision-Language Segmentation Models, VLSM），使语言文本能够作为分割模型的补充输入。

2025-06-12 22:20:10 1254 1

原创【monai 教程】transform之CropPad详解

这个变换基于“正负样本”策略，保证裁剪出的子图像包含感兴趣区域（正样本）和背景（负样本），从而提高模型对目标和背景的区分能力。是 MONAI（Medical Open Network for AI）中用于医学图像预处理的数据增强工具之一，主要用于将图像或标签填充到指定的空间大小，常用于训练时保证图像输入的一致性，尤其是批处理操作时。结合了图像中心缩放（CenterScale）和裁剪（Crop）操作，常用于保持关键区域（如器官或病灶）居中，同时调整图像尺寸。其本质是在空间维度上将图像缩小到仅包含前景的区域。

2025-05-19 20:58:43 1305

vagrant_2.0.3_x86_64.msi

空空如也