集成Vision Transformer 的概率模型改进了复杂的息肉分割

标题

摘要

结直肠息肉在结肠镜检查中被发现,与结直肠癌密切相关,因此息肉分割是诊断和治疗计划的重要临床决策工具。然而,准确的息肉分割仍然是一个具有挑战性的任务,尤其是在涉及微小息肉和其他肠道物质导致高假阳性率的情况下。以往基于监督二值掩码的息肉分割网络可能缺乏对息肉的全局语义感知,导致在复杂场景中对息肉的捕捉和区分能力不足。

本文提出了一种新颖的高斯概率引导语义融合方法,该方法逐步融合息肉位置的概率信息与由二值掩码监督的解码器。
研究者的概率建模集成视觉Transformer网络(PETNet)通过简单类型的卷积解码器有效抑制特征噪声,并显著提高了像素和实例级别的表达能力。代码可在以下网址获取:
代码地址

方法

在这里插入图片描述
如图1所示,PETNet是一个端到端的息肉分割框架,包含三个核心模块组。
(1) 编码器组采用视觉Transformer主干网络,结合混合Transformer注意层,在四个尺度上编码远程依赖特征。
(2) 高斯概率建模组由高斯概率引导的类似UNet的解码分支(GUDB)和高斯概率诱导过渡(GIT)模块组成。
(3) 二值解码器组包括一个类似UNet的结构分支(UDB)、一个融合模块(Fus)和一个级联融合模块(CFM)。
在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述

### Vision Transformer 基准模型与改进版的架构及性能对比 #### 架构差异分析 Vision Transformer (ViT) 是一种基于自注意力机制的神经网络架构,最初设计用于处理序列数据的任务如自然语言处理。对于图像分类任务而言,ViT 将输入图片分割成固定大小的小块(patch),并将这些patch线性映射为向量作为Transformer编码器层的输入[^2]。 然而,原始 ViT 存在一个明显的局限性:它缺乏局部感受野的概念,这使得模型难以捕捉空间层次上的特征关系。为此,后续的研究工作提出了多种改进方案来增强 ViT 的表现力: - **Pyramid Vision Transformer (PVT)** 和 Swin Transformer 结合了卷积神经网络(CNNs)中的金字塔结构特性,从而引入更多的图像特定归纳偏置。这种做法虽然可能稍微降低了跨模态泛化的灵活性,但在分类和密集预测任务方面获得了更好的成绩。 - Conformer 提出了混合 CNN 与 Transformer 的双重网络框架,旨在融合两者的优势以提升整体效能。 #### 性能比较 当评估不同版本 ViTs 在 VTAB 数据集上的效果时可以发现,相比于传统的 SOTA 方法比如 BiT、VIVI 或者 S4L 等,预训练后的 ViT-H/14 版本能够在自然场景以及结构性较强的子任务类别里取得更优的结果;而在专业化领域内,则与其他顶尖选手表现出相近水平的表现[^1]。 具体来说,在多个下游迁移学习测试集中,经过充分调参优化过的新型变体往往能够超越基础型号达到新的记录高位数精度得分。例如 MAE 和 BEiT 这样的自监督学习技术进一步挖掘了纯 ViT 架构下的潜力,证明即使不依赖大量标注样本也能获得出色的零样本或少样本适应能力。 ```python import torch.nn as nn class BaseViT(nn.Module): def __init__(self, patch_size=16, embed_dim=768, depth=12, num_heads=12): super().__init__() self.patch_embed = PatchEmbedding(patch_size, embed_dim) self.transformer_layers = nn.Sequential(*[ TransformerLayer(embed_dim, num_heads) for _ in range(depth)]) class ImprovedViT(BaseViT): def __init__(self, *args, use_conformer=False, pyramid_structure=False, **kwargs): super().__init__(*args, **kwargs) if use_conformer: # Integrate conformer structure here... pass elif pyramid_structure: # Implement PVT/Swin style hierarchical design... pass ```
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨小杨1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值