【视觉分割新SOTA|论文解读3】一种最先进的图像分割模型——Segment Anything Model (SAM)——Data Engine&Dataset
【视觉分割新SOTA|论文解读3】一种最先进的图像分割模型——Segment Anything Model (SAM)——Data Engine&Dataset
文章目录
欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!
大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz
参考链接:https://ai.meta.com/research/publications/segment-anything/
4. Segment Anything Data Engine
由于互联网上的分割掩码数据较为稀缺,我们构建了一个数据引擎来收集1.1B掩码数据集SA-1B。该数据引擎分为三个阶段:**(1) 模型辅助的人工标注阶段,(2) 自动预测掩码与模型辅助标注相结合的半自动阶段,(3) 完全自动化阶段,模型无需人工输入即可生成掩码。**接下来我们详细介绍各阶段。
4.1 人工辅助阶段
在第一阶段,类似于传统的交互式分割,由专业标注人员通过点击前景/背景目标点的方式,使用基于SAM的浏览器交互分割工具进行掩码标注。标注人员可以使用精确的“画笔”和“橡皮擦”工具对掩码进行细化。模型辅助标注在浏览器中实时运行(使用预计算的图像嵌入),实现了真正的交互体验。在对象标注过程中,我们未施加语义约束,标注人员可以自由标注“物质”(stuff)和“物体”(things)【1】。我们建议标注人员标注他们能命名或描述的对象,但并未收集这些名称或描述。标注人员被要求按显著性顺序标注对象,并在某个掩码的标注超过30秒时,鼓励他们转到下一张图像。
在此阶段的初期,SAM是通过常见的公共分割数据集进行训练的。**随着数据标注的增加,SAM仅使用新标注的掩码进行重新训练。随着更多掩码数据的收集,图像编码器从ViT-B扩展到ViT-H,并对其他架构细节进行了调整;在整个过程中,我们共重新训练模型6次。**随着模型性能的提升,每个掩码的平均标注时间从34秒减少到14秒。我们注意到,这个时间比COCO【66】中的掩码标注速度快6.5倍,且仅比极限点【76, 71】标注边界框慢2倍。随着SAM性能的提高,每张图像的平均掩码数量从20个增加到44个。在这一阶段,我们共从12万张图像中收集了430万个掩码。
4.2 半自动阶段
在该阶段,**我们旨在通过增加掩码的多样性来提升模型的分割能力。**为了让标注人员专注于不太显著的目标,**我们首先自动检测了高置信度的掩码,并将这些掩码预先填充到图像中,然后让标注人员标注任何未被标注的额外目标。**为了检测高置信度的掩码,我们使用第一阶段所有掩码的“目标”类别训练了一个边界框检测器【84】。在这一阶段,我们从18万张图像中额外收集了590万个掩码(总计1020万个掩码)。与第一阶段一样,我们定期使用新收集的数据对模型进行重新训练(共进行了5次)。由于这些目标的标注难度更大,平均每个掩码的标注时间回升至34秒(不包括自动生成的掩码)。每张图像的平均掩码数量从44个增加到72个(包括自动掩码)。
4.3 全自动阶段
在最后阶段,标注完全自动化。**实现这一目标的主要原因有两个:首先,在此阶段开始时,我们已经收集了足够多的掩码,特别是上一阶段多样化的掩码,大大提升了模型的能力;其次,我们开发了能够识别歧义的模型,这使得在存在歧义的情况下仍能够预测有效的掩码。具体来说,我们以32×32规则网格的点提示模型,并为每个点预测可能对应的多个有效目标掩码。**该歧义感知模型能够在一个点落在部分或子部分上时返回子部分、部分和整个目标的掩码。模型的IoU预测模块用于选择高置信度的掩码;此外,我们仅选择了稳定的掩码(当以0.5 − δ和0.5 + δ阈值对概率图进行二值化时,结果掩码相似,我们视为稳定掩码)。最后,选择高置信度和稳定掩码后,我们使用非最大抑制(NMS)来过滤重复掩码。为了进一步提高小掩码的质量,我们还处理了多个重叠的放大图像裁剪。**有关该阶段的更多细节,请参见§B。**我们对数据集中所有1100万张图像进行了全自动掩码生成,最终共生成了11亿个高质量掩码。我们将在下文介绍并分析所得数据集SA-1B。
5. Segment Anything Dataset
我们的数据集SA-1B由1100万张多样化、高分辨率、授权并保护隐私的图像,以及通过数据引擎收集的11亿个高质量分割掩码组成。我们将SA-1B与现有数据集进行对比,并分析了掩码的质量和特性。SA-1B的发布旨在支持未来计算机视觉基础模型的发展。需要注意的是,SA-1B将在特定研究用途下以有利的许可协议发布,并为研究人员提供保护措施。
5.1 图像
我们从与摄影师直接合作的供应商处获得了1100万张新图像,这些图像具有较高分辨率(平均3300×4950像素),因此数据体量较大,可能在访问和存储上带来挑战。为此,我们发布了下采样版本,图像的最短边被设置为1500像素。即便如此,这些图像的分辨率仍显著高于许多现有的视觉数据集(例如,COCO【66】数据集的图像分辨率约为480×640像素)。已发布图像中的人脸和车牌号码都已进行模糊处理。
5.2 掩码
我们的数据引擎生成了11亿个掩码,其中99.1%是完全自动生成的,因此自动掩码的质量至关重要。我们将其与专业标注进行直接比较,并分析其与现有著名分割数据集中的掩码属性。我们得出的主要结论是,通过下文分析和§7中的实验结果证明,自动生成的掩码质量较高,且在训练模型时效果显著。因此,SA-1B数据集仅包含自动生成的掩码。
5.3 掩码质量
为了估算掩码质量,我们随机抽样了500张图像(约5万个掩码),并让专业标注人员改进这些图像中所有掩码的质量。**标注人员使用我们的模型及像素级“画笔”和“橡皮擦”编辑工具进行了修正。这一过程生成了自动预测掩码与专业修正掩码的配对。我们计算了每对掩码的IoU,发现94%的掩码对的IoU大于90%(97%的掩码对的IoU大于75%)。**相比之下,先前的研究估计不同标注者之间的一致性为85-91% IoU【44, 60】。我们在§7中的实验通过人工评价证实,相较于其他数据集,我们的掩码质量较高,并且使用自动生成的掩码训练模型的效果几乎与使用数据引擎生成的所有掩码相当。
5.4 掩膜属性
在图5中,我们绘制了SA-1B数据集与现有最大分割数据集的目标中心空间分布进行比较。**所有数据集都存在常见的摄影师偏差。**我们观察到,SA-1B的数据在图像角落的覆盖范围比LVIS v1【44】和ADE20K【117】更广,而COCO【66】和Open Images V5【60】则表现出更显著的中心偏差。在图6的图例中,我们按规模比较了这些数据集。SA-1B的数据集拥有比第二大数据集Open Images多出11倍的图像和400倍的掩膜,平均每张图像包含的掩膜数量是Open Images的36倍。就每张图像的掩膜数量而言,最接近的ADE20K数据集的掩膜数量仍比SA-1B少3.5倍。图6左侧展示了每张图像的掩膜分布。
接下来,我们分析了图像相对掩膜的大小(掩膜面积平方根除以图像面积)如图6中间所示。由于SA-1B的数据集每张图像包含更多的掩膜,因此它也往往包括更多的小型和中型相对大小的掩膜。最后,为分析形状复杂性,我们考察了掩膜的凹度(1减去掩膜面积与其凸包面积的比值),如图6右侧所示。由于形状复杂性与掩膜大小相关,我们首先根据掩膜大小进行分层采样,发现SA-1B的掩膜凹度分布与其他数据集总体相似。
6. Segment Anything RAI Analysis
我们对SA-1B数据集和SAM模型进行责任人工智能分析,探讨潜在的公平性问题和偏差。分析重点是SA-1B的地理和收入分布以及SAM在受保护人群属性中的公平性。我们在§F中提供了数据集、数据注释和模型卡的信息。
6.1 地理和收入代表性
我们使用标准方法推断图像拍摄国家(详见§C)。在图7中,我们可视化了SA-1B中每个国家的图像数量(左侧)以及图像数量最多的50个国家(右侧)。值得注意的是,前三个国家来自世界不同地区。在表1中,我们比较了SA-1B、COCO【66】和Open Images【60】的地理和收入代表性。SA-1B在欧洲和亚太地区及中等收入国家的图像比例显著较高。所有数据集均低估了非洲及低收入国家的代表性。我们发现,在SA-1B中,包括非洲在内的所有地区的掩膜数量至少为2800万,是任何先前数据集掩膜总数的10倍。最后,我们观察到每张图像的平均掩膜数量(未显示)在各地区和收入之间相对一致(每张图像94-108个掩膜)。
6.2 人群分割的公平性
我们通过测量SAM在不同人群间的性能差异,研究与感知性别表现、感知年龄组和感知肤色相关的潜在公平性问题。我们使用“更具包容性的人员注释(MIAP)”数据集【87】进行性别表现和年龄分析,并使用一个专有数据集进行肤色分析(详见§C)。我们的评估使用模拟交互式分割,并随机采样1和3个点(见§D)。表2(左上)显示了感知性别表现的结果。我们注意到,女性在检测和分割数据集中往往表现不足【115】, 但观察到SAM在各组间的表现相似。我们在表2(左下)重复对感知年龄的分析,指出年轻和老年人群在大规模数据集中通常代表性不足【110】。SAM在被感知为老年人群中的表现最佳(尽管置信区间较大)。最后,我们在表2(右侧)重复对感知肤色的分析,发现肤色较浅的人群在大规模数据集中通常被高估,而肤色较深的人群被低估【110】。由于MIAP数据集中不包含感知肤色的注释,我们使用了一个包含感知Fitzpatrick肤色类型的专有数据集【36】, 范围从1(最浅肤色)到6(最深肤色)。尽管均值存在一定差异,但我们未发现各组之间存在显著差异。我们认为这一结果源于任务的性质,并承认在SAM作为更大系统组件时可能会出现偏差。最后,在§C中,我们扩展了对服装分割的分析,发现感知性别表现存在一定的偏差指示。
欢迎宝子们点赞、关注、收藏!欢迎宝子们批评指正!
祝所有的硕博生都能遇到好的导师!好的审稿人!好的同门!顺利毕业!
大多数高校硕博生毕业要求需要参加学术会议,发表EI或者SCI检索的学术论文会议论文:
可访问艾思科蓝官网,浏览即将召开的学术会议列表。会议入口:https://ais.cn/u/mmmiUz