©PaperWeekly 原创 · 作者 | Jason
研究方向 | 计算机视觉
图像抠图是指提取图像中准确的前景。当前的自动方法倾向于不加区别地提取图像中的所有显著对象。在本文中,作者提出了一个新的任务称为参考图像抠(Referring Image Matting,RIM),指的是提取特定对象的细致的 alpha 抠图,它可以最好地匹配给定的自然语言描述。然而,流行的 visual grounding 方法都局限于分割水平,可能是由于缺乏高质量的 RIM 数据集。为了填补这一空白,作者通过设计一个全面的图像合成和表达生成引擎,建立了第一个大规模挑战性数据集 RefMatte,以在当前公共高质量抠图前景的基础上生成合成图像,具有灵活的逻辑和重新标记的多样化属性。
RefMatte 由 230 个对象类别、47,500 个图像、118,749 个表达式区域实体和 474,996 个表达式组成,将来可以很容易地进一步扩展。除此之外,作者还构建了一个真实世界测试集,该测试集由 100 幅自然图像组成,使用人工生成的短语标注来进一步评估 RIM 模型的泛化能力。首先定义了基于提示和基于表达两种背景下的 RIM 任务,然后测试了几种典型的图像抠图方法以及具体的模型设计。这些结果为现有方法的局限性以及可能的解决方案提供了经验性的见解。相信新任务 RIM 和新数据集 RefMatte 将在该领域开辟新的研究方向,并促进未来的研究。
论文标题:
Referring Image Matting
论文地址:
https://arxiv.org/abs/2206.05149
代码地址:
https://github.com/JizhiziLi/RIM
Motivation
图像抠图是指提取自然图像中前景的软 ahpha 抠图,这有利于各种下游应用,如视频会议、广告制作和电子商务推广。典型的抠图方法可以分为两组:1)基于辅助输入的方法,例如 trimap,以及 2)无需任何人工干预即可提取前景的自动抠图方法。但前者不适用于自动应用场景,后者一般局限于特定的对象类别,如人、动物或所有显著的物体。如何对任意对象进行可控的图像抠图,即提取与给定的自然语言描述最匹配的特定对象的 alpha 抠图,仍是一个有待探索的问题。
语言驱动的任务,例如 referring expression segmentation(RES)、referring image segmentation(RIS)、视觉问答(VQA)和 referring expression comprehension(REC)已被广泛探索。基于 ReferIt、Google RefExp、RefCOCO、VGPhraseCut 和 Cops-Ref 等许多数据集,这些领域已经取得了很大进展。例如,RES 方法旨在分割由自然语言描述指示的任意对象。然而,获得的 mask 仅限于没有精细细节的分割级别,由于数据集中的低分辨率图像和粗略的 mask 标注。因此,它们不可能用于需要对前景对象进行细致 Alpha 抠图的场景。
为了填补这一空白,作者在本文中提出了一项名为“Referring Image Matting(RIM)”的新任务。RIM 是指在图像中提取与给定自然语言描述最匹配的特定前景对象以及细致的高质量 alpha 抠图。与上述两种抠图方法解决的任务不同,RIM 旨在对语言描述指示的图像中的任意对象进行可控的图像抠图。在工业应用领域具有现实意义,为学术界开辟了新的研究方向。
为了促进 RIM 的研究,作者建立了第一个名为 RefMatte 的数据集,该数据集由 230 个对象类别、47,500 个图像和 118,749 个