【计算机视觉】有限标签的场景图预测

最新推荐文章于 2023-07-25 07:32:13 发布

Wwwilling

最新推荐文章于 2023-07-25 07:32:13 发布

阅读量627

点赞数

分类专栏：多模态论文推荐系统论文阅读 Transformer系列论文文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/qq_43058281/article/details/125089380

版权

推荐系统论文阅读同时被 3 个专栏收录

19 篇文章 1 订阅

订阅专栏

Transformer系列论文

19 篇文章 1 订阅

订阅专栏

多模态论文

5 篇文章 0 订阅

订阅专栏

文献题目：Scene Graph Prediction with Limited Labels

摘要

诸如视觉基因组之类的视觉知识库为计算机视觉中的众多应用提供了支持，包括视觉问答和字幕，但存在稀疏、不完整的关系。迄今为止，所有场景图模型都仅限于在一小部分视觉关系上进行训练，每个视觉关系都有数千个训练标签。雇用人工注释者的成本很高，并且使用文本知识库完成方法与视觉数据不兼容。在本文中，我们介绍了一种半监督方法，该方法使用少量标记示例为大量未标记图像标记概率关系标签。我们分析视觉关系以提出两种与图像无关的特征，这些特征用于生成嘈杂的启发式方法，其输出使用基于因子图的生成模型进行聚合。每个关系只有 10 个标记示例，生成模型创建足够的训练数据来训练任何现有的最先进的场景图模型。我们证明，对于 PREDCLS，我们的方法在场景图预测方面优于所有基线方法 5.16 召回@100。在我们的有限标签设置中，我们为关系定义了一个复杂度指标，作为我们的方法成功超过转移学习的条件的指标 ( $R^2 = 0.778$ )，转移学习是使用有限标签进行训练的事实上的方法。

引言

为了将图像的结构化表示形式化，Visual Genome [27] 定义了场景图，这是一种类似于广泛用于表示知识库 [13,18,56] 的格式。场景图将对象（例如人、自行车）编码为通过成对关系（例如骑行）连接的节点作为边。这种形式化导致了图像字幕[3]、图像检索[25、42]、视觉问答[24]、关系建模[26]和图像生成[23]方面的最先进模型。然而，所有现有的场景图模型都忽略了超过 98% 的没有足够标记实例的关系类别（参见图 2），而是专注于对具有数千个标签的少数关系进行建模 [31、49、54]。
雇用更多的人工是标记关系的无效解决方案，因为图像注释非常繁琐，以至于看似明显的标签没有被注释。为了补充人工注释器，传统的基于文本的知识完成任务利用了许多半监督或远程监督方法 [6, 7, 17, 34]。这些方法从一个小的标记集合中找到句法或词汇模式，以从一个大的未标记集合中提取缺失的关系。在文本中，基于模式的方法是成功的，因为文本中的关系通常与文档无关（例如 <Tokyo - is capital of - Japan>）。视觉关系通常是偶然的：它们取决于它们出现的特定图像的内容。因此，依赖于外部知识或概念上的模式的方法（例如，飞盘旁边的狗的大多数实例都在玩它）不会概括好。由于无法利用基于文本的方法的进步，因此需要专门的视觉知识方法。
在本文中，我们使用小型标记数据集自动生成缺失的关系标签，并使用这些生成的标签来训练下游场景图模型（参见图 1）。我们首先探索如何为关系定义与图像无关的特征，以便它们遵循跨图像的模式。例如，eat 通常由一个对象消耗另一个比自己小的对象组成，而 look 通常由常见对象组成：电话、笔记本电脑或窗口（参见图 3）。这些规则不依赖于原始像素值；它们可以来自与图像无关的特征，例如对象类别和关系中对象之间的相对空间位置。虽然这些规则很简单，但它们为未注释关系提供监督的能力尚未得到探索。虽然与图像无关的特征可以很好地表征某些视觉关系，但它们可能无法捕捉具有高方差的复杂关系。为了量化我们与图像无关的特征的功效，我们定义了测量空间和类别复杂性的“子类型”（第 3 节）。