[论文阅读] SegDiff: Image Segmentation with Diffusion Probabilistic Models

[论文地址] [代码] [arXiv 21.12]


笔者注:关于基于扩散模型的分割,目前开源比较好的为如下这篇
[论文地址] [代码] [arXiv 21.11] MedSegDiff: Medical Image Segmentation with Diffusion Probabilistic Model
欢迎扫文末微信一起交流


Abstract

扩散概率方法被用于最先进的图像生成。在这项工作中,我们提出了一种扩展此类模型的方法,用于执行图像分割。该方法进行端到端的学习,而不依赖于预先训练的骨干。输入图像中的信息和当前估计的分割图中的信息是通过两个编码器的输出相加而合并的。然后,额外的编码层和解码器被用来迭代完善分割图,使用一个扩散模型。由于扩散模型是概率性的,它被多次应用,其结果被合并成最终的分割图。新方法在Cityscapes验证集、Vaihingen建筑分割基准和MoNuSeg数据集上产生了最先进的结果。


Method

本文是第一篇将diffusion模型用于分割任务的文章。结构如下:
在这里插入图片描述
对于原始的diffusion来说,输入是一个高斯噪声,输出是一张真实图像 x 0 x_0 x0;那么由于本文是分割任务,因此输出的 x 0 x_0 x0是分割结果。现在问题来了,分割结果是从分割图像里来的,那么图像是怎么输进去呢?类似于条件GAN的思想,我们怎么去构建一个"条件diffusion"的模型呢?

本文的具体做法是,把diffusion中所使用的UNet进一步解耦,对于其编码器,将其进一步拆分为E,F,G,其中E负责与解码器D进行连接,而G负责编码原始图像,F负责编码上一步的噪声。写成公式就是: ϵ θ ( x t , I , t ) = D ( E ( F ( x t ) + G ( I ) , t ) , t ) \epsilon_\theta (x_t,I,t) = D(E(F(x_t)+G(I),t),t) ϵθ(xt,I,t)=D(E(F(xt)+G(I),t),t)

这个基本就是本文的核心创新所在了,即怎么修改网络结构,把图像给塞到diffusion过程中去。此外,本文在测试阶段还有个小技巧,因为diffusion作为一种生成模型,每次生成的结果肯定都是不同的,而分割任务的答案是唯一的;而且,生成结果不一致,也不利于结果复现。本文的解决方案是测试多次取平均值。

  • 7
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
标签高效的语义分割是指使用扩散模型进行语义分割的方法。语义分割是计算机视觉中的一项重要任务,目标是将图像中的每个像素标记为属于特定类别。传统的语义分割方法通常需要大量的标注数据进行训练,这对于很多场景来说是不可行的,因为标注数据的获取十分耗时和费力。因此,提出了一种使用扩散模型的标签高效语义分割方法。 扩散模型基于自监督学习的思想,通过利用图像自身的结构信息进行训练。具体而言,该方法首先将图像划分为一组超像素或紧密区域,然后根据这些区域的颜色、纹理或形状等特征来推断像素的标签。通过这种方式,可以大大减少对标注数据的依赖。 该方法的关键步骤是利用扩散模型对像素进行标签推断。扩散模型是一种基于概率传播的图像分割方法,它通过计算每个像素与其周围像素之间的相似度来推断像素的标签。这样一来,即使只有部分像素有标注,也可以利用它们与周围像素的相似性来推断未标注像素的标签,从而实现标签高效的语义分割。 与传统的语义分割方法相比,标签高效的语义分割方法在保持较高准确率的同时,显著减少了对标注数据的需求。这对于那些无法获得大量标注数据的场景来说,具有重要的实际意义。因此,标签高效的语义分割方法在计算机视觉和图像处理领域具有广泛的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值