场景图生成(Scene Graph Generation, SGG)是计算机视觉领域中的一个核心任务,其目的是从视觉场景中提取实体,并识别这些实体之间的语义关系。通过生成结构化的场景描述,SGG为图像理解、视觉问答、内容生成等多种任务提供了重要支持。与传统的目标检测任务不同,场景图生成不仅需要精确识别单个对象,还需要捕捉对象之间复杂而细微的关系,这对算法的语义理解能力提出了更高的要求。这一领域面临的挑战主要体现在如何处理视觉场景中多样化的对象组合及其关系表达,同时应对长尾分布等问题,即在不均衡的数据分布下,如何有效建模低频关系。尽管如此,场景图生成的研究在过去几年取得了显著进展。通过更深入地挖掘场景的上下文信息,SGG技术不仅提升了模型的理解能力,还为复杂视觉任务的自动化处理奠定了基础。
我们整理了近年来发表在顶级学术会议和期刊上的一些场景图生成相关研究,这些研究集中探讨了该技术在不同任务中的应用潜力,以及应对视觉场景中复杂关系建模和优化效率等挑战,为这一领域的未来发展提供了丰富的启示。
论文1
优点与创新:
1. 双粒度关系建模(DRM)网络:提出了DRM网络,结合了粗粒度的谓词线索和细粒度的三元组线索,以进行关系识别。
2. 双粒度知识迁移(DKT)策略:引入了DKT策略,从头部谓词/三元组向尾部类别转移知识,以缓解长尾问题。
3. 全面的实验评估:在Visual Genome、Open Image和GQA数据集上进行了广泛的实验,展示了所提方法的优越性。
4. 细粒度三元组线索的利用:通过联合探索三元组的视觉内容和相应的标签语义,增强了细粒度三元组表示。
5. 双粒度约束:提出了双粒度约束,防止谓词和三元组特征空间在模型训练过程中退化。
论文2
优点与创新:
1. 指出了现有SGG研究忽略了谓词语义的多样性:论文强调了理解谓词义多样性对于生成信息丰富的场景图的重要性。
2. 提出了模型无关的语义多样性感知原型学习(DPL)框架:该框架通过原型和概率采样方法捕捉谓词的语义多样性,从而实现无偏预测。
3. 显著提高了现有SGG模型的性能:通过在VG和GQA数据集上的大量实验,证明了所提出方法的有效性,达到了最先进的性能水平。
4. 有效理解了谓词的语义多样性:通过生成样本并匹配关系特征,学习每个谓词可以表示的区域,从而识别可以用同一谓词表示的主体-对象关系的特定语义。
5. 提供了合理的定性结果:实验结果表明,DPL不仅在性能上有显著提升,还能提供更为合理的定性结果。
论文3
优点与创新:
1. 轻量级模型:EGTR通过利用对象检测器多头自注意力层的副产品,显著减少了模型复杂度。
2. 自适应平滑技术:提出了一种新的自适应平滑技术,根据对象检测性能调整关系标签,从而实现有效的多任务学习。
3. 连通性预测任务:作为关系提取的辅助任务,连通性预测有助于获取关系提取的表示。
4. 全面的实验:在Visual Genome和Open Image V6数据集上进行了广泛的实验,证明了所提出模型框架的有效性和训练技术的优越性。
5. 高效的图生成:通过利用对象检测器的自注意力副产品,EGTR能够高效地生成场景图。
6. 多任务学习:通过自适应平滑技术和连通性预测任务,EGTR实现了对象检测和关系提取的多任务学习。
论文4
优点与创新:
1. Groupwise Query Specialization:通过将查询和关系划分为不相交的组,并仅将查询引导至相应的关系组中,训练出“专门化”的查询。这使查询能够专注于特定关系,而不是试图检测所有关系,从而提高了模型在特定任务上的性能。
2. Quality-Aware Multi-Assignment:通过考虑三元组级别的预测质量,自适应地将多个高质量的预测分配给真实标签(GT),从而提供了更丰富的训练信号。这种方法减少了接近正确或正确的预测被错误地分配为“无关系(∅)”的情况。
3. 一致的性能提升:实验结果表明,SpeaQ可以应用于多种架构,并在多个视觉关系检测(VRD)模型和基准测试中实现了持续的性能提升,且无需额外的推理成本、模型参数或后处理。
4. 广泛的适用性:SpeaQ不仅提高了常见关系的性能,还改善了之前模型在罕见关系上的表现,实现了在VG基准上的最佳性能。
5. 零额外开销:与基线相比,SpeaQ在不增加任何额外推理成本的情况下实现了性能提升。