【计算机视觉】有限标签的场景图预测

  • 文献题目:Scene Graph Prediction with Limited Labels

摘要

  • 诸如视觉基因组之类的视觉知识库为计算机视觉中的众多应用提供了支持,包括视觉问答和字幕,但存在稀疏、不完整的关系。迄今为止,所有场景图模型都仅限于在一小部分视觉关系上进行训练,每个视觉关系都有数千个训练标签。雇用人工注释者的成本很高,并且使用文本知识库完成方法与视觉数据不兼容。在本文中,我们介绍了一种半监督方法,该方法使用少量标记示例为大量未标记图像标记概率关系标签。我们分析视觉关系以提出两种与图像无关的特征,这些特征用于生成嘈杂的启发式方法,其输出使用基于因子图的生成模型进行聚合。每个关系只有 10 个标记示例,生成模型创建足够的训练数据来训练任何现有的最先进的场景图模型。我们证明,对于 PREDCLS,我们的方法在场景图预测方面优于所有基线方法 5.16 召回@100。在我们的有限标签设置中,我们为关系定义了一个复杂度指标,作为我们的方法成功超过转移学习的条件的指标 ( R 2 = 0.778 R^2 = 0.778 R2=0.778),转移学习是使用有限标签进行训练的事实上的方法。

引言

  • 为了将图像的结构化表示形式化,Visual Genome [27] 定义了场景图,这是一种类似于广泛用于表示知识库 [13,18,56] 的格式。 场景图将对象(例如人、自行车)编码为通过成对关系(例如骑行)连接的节点作为边。 这种形式化导致了图像字幕[3]、图像检索[25、42]、视觉问答[24]、关系建模[26]和图像生成[23]方面的最先进模型。 然而,所有现有的场景图模型都忽略了超过 98% 的没有足够标记实例的关系类别(参见图 2),而是专注于对具有数千个标签的少数关系进行建模 [31、49、54]。
  • 雇用更多的人工是标记关系的无效解决方案,因为图像注释非常繁琐,以至于看似明显的标签没有被注释。为了补充人工注释器,传统的基于文本的知识完成任务利用了许多半监督或远程监督方法 [6, 7, 17, 34]。这些方法从一个小的标记集合中找到句法或词汇模式,以从一个大的未标记集合中提取缺失的关系。在文本中,基于模式的方法是成功的,因为文本中的关系通常与文档无关(例如 <Tokyo - is capital of - Japan>)。视觉关系通常是偶然的:它们取决于它们出现的特定图像的内容。因此,依赖于外部知识或概念上的模式的方法(例如,飞盘旁边的狗的大多数实例都在玩它)不会概括好。由于无法利用基于文本的方法的进步,因此需要专门的视觉知识方法。
  • 在本文中,我们使用小型标记数据集自动生成缺失的关系标签,并使用这些生成的标签来训练下游场景图模型(参见图 1)。我们首先探索如何为关系定义与图像无关的特征,以便它们遵循跨图像的模式。例如,eat 通常由一个对象消耗另一个比自己小的对象组成,而 look 通常由常见对象组成:电话、笔记本电脑或窗口(参见图 3)。这些规则不依赖于原始像素值;它们可以来自与图像无关的特征,例如对象类别和关系中对象之间的相对空间位置。虽然这些规则很简单,但它们为未注释关系提供监督的能力尚未得到探索。虽然与图像无关的特征可以很好地表征某些视觉关系,但它们可能无法捕捉具有高方差的复杂关系。为了量化我们与图像无关的特征的功效,我们定义了测量空间和类别复杂性的“子类型”(第 3 节)。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 计算机视觉猫狗识别SVM,是一种基于支持向量机算法的猫狗像分类器。这种分类器使用大量的有标签的猫狗像数据来进行训练,并从中学习出一组狗和猫的特征,然后将这些特征用来对新输入的像进行分类。 SVM是一种常用的机器学习算法,通过将多维数据映射到支持向量面上,进行非线性分类、回归、降维等任务。在猫狗识别中,SVM算法可以对像特征进行降维、分类,用来判断输入的像是猫还是狗。 在使用SVM算法进行猫狗识别之前,首先需要将像数据转换成数字矩阵,提取出像的特征作为训练的数据。这些特征可以是颜色、纹理、形状等。提取出像的特征后,使用SVM算法对特征进行分类,将猫和狗进行区分。 在实际运用中,需要利用大量的有标签数据对SVM模型进行训练,并对训练结果进行评估和调整。随着机器学习和计算机视觉技术的不断发展,计算机视觉猫狗识别SVM算法也可以进行不断的升级和优化,以提高准确率和效率。 ### 回答2: 计算机视觉猫狗识别的SVM(Support Vector Machine)是一种基于机器学习算法的分类器,常用于像分类和目标检测。在猫狗识别任务中,SVM可以通过学习猫狗像数据集中特征点的差异,建立一个分类模型,将未知的像分为猫或狗的类别。 SVM的实现步骤包括特征提取、数据集划分、模型训练和测试。首先需要从像数据集中提取出有代表性的特征,如HOG(Histogram of Oriented Gradients)或SIFT(Scale-Invariant Feature Transform),用于构建数据集。然后将数据集按一定比例划分为训练集和测试集,并进行标签化。接着,在训练阶段,使用SVM算法从训练集中学习猫和狗之间的区别,并通过调优模型参数来提高模型效果。最后,在测试阶段,使用SVM模型对测试集中的像进行分类预测,并评估模型的分类性能。 要构建一个高准确率的SVM猫狗识别系统,需要充足的像数据集和良好的特征提取方法。同时,需要对SVM的参数设置和调优有足够的理解和掌握,以确保模型的训练效果和分析结果可靠性。除此之外,还需要考虑模型的实时性和复杂度,以满足实际应用场景需求。 ### 回答3: 计算机视觉猫狗识别是一种基于机器学习算法的像识别技术,通过像处理和特征提取等技术,将输入的猫或狗像进行分类。而支持向量机(SVM)是一种常用的分类器,它利用所谓的核函数将训练数据映射到高维空间,通过分类面划分不同的类别,并预测新数据的分类。 在猫狗识别中,SVM主要通过学习训练数据集的特征和是否为猫或狗进行训练,然后利用训练好的分类器对新的输入数据进行分类。具体而言,基于SVM的猫狗识别流程包括以下几个步骤: 1. 数据集准备:需要收集大量的猫和狗的像数据,同时进行数据清洗和预处理,包括像增强、白平衡、去噪等。 2. 特征提取:可以使用深度学习算法如卷积神经网络(CNN)来自动提取像的特征,或者手动设计特征。例如,我们可以通过颜色直方、纹理、形状和边缘等特征来描述猫和狗的不同属性。 3. 分类器训练:利用SVM算法对已提取的特征进行训练,得到分类器模型。在训练过程中,我们需要选择核函数类型和参数,并进行交叉验证等操作来优化模型的性能。 4. 数据分类:将新的输入数据输入到已训练好的分类器中,进行分类识别,判断是猫还是狗。 总之,利用支持向量机算法进行计算机视觉猫狗识别技术,可以通过对大量数据和特征的学习和分类,实现准确的猫狗像识别。未来,该技术还将在人工智能、自动驾驶、医学像分类等领域得到广泛应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值