DeepPyramid:在白内障手术视频中实现金字塔视图和可变形金字塔接收的语义分割

DeepPyramid: Enabling Pyramid View and Deformable Pyramid Reception for Semantic Segmentation in Cataract Surgery Videos

摘要

本文提出了一种称为DeepPyramid的语义分割网络,该网络可以使用三个新颖性来应对这些挑战:
(1)金字塔视图融合模块,该模块提供以输入卷积特征图中的每个像素位置为中心的周围区域的多种角度全局视图;
(2) 可变形金字塔接收模块,其使得能够适应感兴趣对象中的几何变换的宽的可变形感受野成为可能;
(3)自适应地监督多尺度语义特征图的专用金字塔损失

这些模块可以有效地提高语义分割性能,特别是在对象具有透明性、可变形性、可扩展性和钝边的情况下
代码地址
在这里插入图片描述

本文方法

在这里插入图片描述
基本的特征金字塔结构

模块细节

在这里插入图片描述
Pyramid View Fusion (PVF)
首先,通过使用核大小为1的卷积层来抑制计算复杂性,从而形成bottleneck。然后,卷积特征图被馈送到四个并行分支:一个全局平均池化层,然后是上采样,以及三个平均池化层次,它们具有逐渐变大的滤波器大小和1的公共步长。请注意,如PSPNet所示,使用一个像素步长对于获得逐像素的集中金字塔视图至关重要,而不是逐区域的金字塔注意力。然后将输出的特征图连接起来,并将其馈送到具有四个组的卷积层中。该层负责在降维过程中提取通道间依赖关系。然后,在被馈送到层归一化函数之前,应用规则卷积层来提取联合的信道内和信道间相关性。
Deformable Pyramid Reception (DPR)
首先连接来自编码器的细粒度特征图和来自前一层的粗粒度语义特征图。然后,这些特征被馈送到三个平行的分支中
DPR模块中使用的可变形块由应用于输入特征图的规则卷积层组成,以计算可变形卷积的偏移场。偏移字段为卷积滤波器中的每个元素提供两个值(水平偏移和垂直偏移)。因此,对于大小为3×3的内核,偏移场的输出通道的数量等于18。受dU-Net的启发,偏移场的卷积层后面跟着一个激活函数,我们将其设置为硬正切双曲函数,因为它在计算上是高效的,并将偏移值剪裁到[-1,1]的范围内。可变形块使用学习的偏移值以及具有预定膨胀率的卷积特征图来提取对象自适应特征。

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小杨小杨1

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值