本文是LLM系列文章,针对《Diffuse, Attend, and Segment: Unsupervised Zero-Shot Segmentation using Stable Diffusion》的翻译。
摘要
生成高质量的图像分割掩模是计算机视觉中的一个基本问题。最近的研究已经探索了大规模的监督训练,以实现对几乎任何图像风格的零样本分割,以及无监督训练,以便在没有密集注释的情况下实现分割。然而,构建一个能够在没有任何注释的情况下以零样本方式分割任何东西的模型仍然具有挑战性。在本文中,我们建议利用稳定扩散模型中的自注意层来实现这一目标,因为预先训练的稳定扩散模型已经学习了其注意层中对象的固有概念。具体来说,我们引入了一种简单而有效的迭代合并过程,该过程基于测量注意力图之间的KL散度,将它们合并为有效的分割掩码。所提出的方法不需要任何训练或语言依赖性来提取任何图像的质量分割。在COCO-Stuff-27上,我们的方法在像素精度和平均IoU上分别超过了先前的无监督零样本SOTA方法26%和17%。
1 引言
2 相关工作
3 方法
4 实验
5 可视化
6 结论
无监督和