ICCV 2023 Oral | 超越SAM!EntitySeg:更少的数据,更高的分割质量!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和Transformer】交流群

在CVer微信公众号后台回复:EntitySeg,可下载本论文、代码和数据集

6534c7a80c817001291c9440abf52b35.png

稠密图像分割问题一直在计算机视觉领域中备受关注。无论是在Adobe旗下的Photoshop等重要产品中,还是其他实际应用场景中,分割模型的泛化和精度都被赋予了极高的期望。对于这些分割模型来说,需要在不同的图像领域、新的物体类别以及各种图像分辨率和质量下都能够保持鲁棒性。为了解决这个问题,早在SAM[6]模型一年之前,一种不考虑类别的实体分割任务[1]被提出,作为评估模型泛化能力的一种统一标准。 

d7e00e73b2854a022dc9be55654c69da.png

在本文中,High-Quality Entity Segmentation对分割问题进行了全新的探索,从以下三个方面取得了显著的改进:

  1. 更优的分割质量

    正如上图所示,EntitySeg在数值指标和视觉表现方面都相对于SAM有更大的优势。令人惊讶的是,这种优势是基于仅占训练数据量千分之一的数据训练取得的。

  2. 更少的高质量数据需求

    相较于SAM使用的千万级别的训练数据集,EntitySeg数据集仅含有33,227张图像。尽管数据量相差千倍,但EntitySeg却取得了可媲美的性能,这要归功于其标注质量,为模型提供了更高质量的数据支持。

  3. 更一致的输出细粒度(基于实体标准)

    从输出的分割图中,我们可以清晰地看到SAM输出了不同粒度的结果,包括细节、部分和整体(如瓶子的盖子、商标、瓶身)。然而,由于SAM需要对不同部分的人工干预处理,这对于自动化输出分割的应用而言并不理想。相比之下,EntitySeg的输出在粒度上更加一致,并且能够输出类别标签,对于后续任务更加友好。

在阐述了这项工作对稠密分割技术的新突破后,接下来的内容中介绍EntitySeg数据集的特点以及提出的算法CropFormer。

23742b988986088d1a2380a5025647d3.png

在CVer微信公众号后台回复:EntitySeg,可下载本论文、代码和数据集

主页:http://luqi.info/entityv2.github.io/

论文:https://arxiv.org/abs/2211.05776

代码(已开源):

https://github.com/qqlu/Entity/blob/main/Entityv2/README.md

根据Marr计算机视觉教科书中的理论,人类的识别系统是无类别的。即使对于一些不熟悉的实体,我们也能够根据相似性进行识别。因此,不考虑类别的实体分割更贴近人类识别系统,不仅可以作为一种更基础的任务,还可以辅助于带有类别分割任务[2]、开放词汇分割任务[3]甚至图像编辑任务[4]。与全景分割任务相比,实体分割将“thing”和“stuff”这两个大类进行了统一,更加符合人类最基本的识别方式。

EntitySeg数据集

由于缺乏现有的实体分割数据,作者在其工作[1]使用了现有的COCO、ADE20K以及Cityscapes全景分割数据集验证了实体任务下模型的泛化能力。然而,这些数据本身是在有类别标签的体系下标注的(先建立一个类别库,在图片中搜寻相关的类别进行定位标注),这种标注过程并不符合实体分割任务的初衷——图像中每一个区域均是有效的,哪怕这些区域无法用言语来形容或者被Blur掉,都应该被定位标注。此外,受限于提出年代的设备,COCO等数据集的图片域以及图片分辨率也相对单一。因此基于现有数据集下训练出的实体分割模型也并不能很好地体现实体分割任务所带来的泛化能力。最后,原作者团队在提出实体分割任务的概念后进一步贡献了高质量细粒度实体分割数据集EntitySeg及其对应方法。EntitySeg数据集是由Adobe公司19万美元赞助标注完成,已经开源贡献给学术界使用。项目主页:http://luqi.info/entityv2.github.io/

EntitySeg数据集有三个重要特性:

  1. 数据集汇集了来自公开数据集和学术网络的33,227张图片。这些图片涵盖了不同的领域,包括风景、室内外场景、卡通画、简笔画、电脑游戏和遥感场景等。

  2. 标注过程在无类别限制下进行的掩膜标注,并且可以覆盖整幅图像。

  3. 图片分辨率更高,标注更精细。如上图所示,即使相比COCO和ADE20K数据集的原始低分辨率图片及其标注,EntitySeg的实体标注更全且更精细。

最后,为了让EntitySeg数据集更好地服务于学术界,11580张图片在标注实体掩膜之后,以开放标签的形式共标注了643个类别。EntitySeg、COCO以及ADE20K数据集的统计特性对比如下:

6635c62105f4a4a1427d40b27405a6b1.png

通过和COCO以及ADE20K的数据对比,可以看出EntitySeg数据集图片分辨率更高(平均图片尺寸2700)、实体数量更多(每张图平均18.1个实体)、掩膜标注更为复杂(实体平均复杂度0.719)。极限情况下,EntitySeg的图片尺寸可达到10000以上。

与SAM数据集不同,EntitySeg更加强调小而精,试图做到对图片中的每个实体得到最为精细的边缘标注。此外, EntitySeg保留了图片和对应标注的原始尺寸,更有利于高分辨率分割模型的学术探索。

基于EntitySeg数据集,作者衡量了现有分割模型在不同分割任务(无类别实体分割,语义分割,实例分割以及全景分割)的性能以及和SAM在zero-shot实体级别的分割能力。

6b78b054260bd80f7e8d9f52f920218e.png

3b67a6eaa24505dd392ac336c5d91f43.png

CropFormer算法框架

除此之外,高分辨率图片和精细化掩膜给分割任务带来了新的挑战。为了节省硬件内存需求,分割模型需要压缩高分辨率图片及标注进行训练和测试进而导致分割质量的降低。为了解决这一问题,作者提出了CropFormer框架来解决高分辨率图片分割问题。CropFormer受到Video-Mask2Former[5]的启发, 利用一组query连结压缩为低分辨率的全图和保持高分辨率的裁剪图的相同实体。因此,CropFormer可以同时保证图片全局和区域细节属性。CropFormer是根据EntitySeg高质量数据集的特点提出的针对高分辨率图像的实例/实体分割任务的baseline方法,更加迎合当前时代图片质量的需求。

928491230c29055cfba040fdd3a76722.png

最后在补充材料中,作者展示了更多的EntitySeg数据集以及CropFormer的可视化结果。下图为更多数据标注展示:

3ed5613a841cfa190c300356553a83a9.jpeg

下图为CropFormer模型测试结果:

13ffadb91436aefc55badd4f5b47fd79.png

在CVer微信公众号后台回复:EntitySeg,可下载本论文、代码和数据集

[1] Open-World Entity Segmentation. TAPMI 2022.

[2] CA-SSL: Class-agnostic Semi-Supervised Learning for Detection and Segmentation. ECCV 2022.

[3] Open-Vocabulary Panoptic Segmentation with MaskCLIP. ICML 2023.

[4] SceneComposer: Any-Level Semantic Image Synthesis. CVPR 2023.

[5] Masked-attention Mask Transformer for Universal Image Segmentation. CVPR 2022.

[6] Segment Anything. ICCV 2023.

 
 

点击进入—>【图像分割和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

 
 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
图像分割和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。
一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看3c5976d2cecb599f830ac35e12732830.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值