Visual Genome视觉基因组(4)

6.Experiment

  到现在为止,我们呈现了VG数据集并且分析它每个独立的部件。在有了丰富的信息之后,大量的感知和认知任务就可以被解决。在本章,我们的目的是提供一些使用VG的数据进行的一些实验baseline,这些都还没有被进一步研究。目标检测近年已经被很好的研究了。类似的,区域图和场景图也被展示出来他们可以用来改进语义图像检索的能力。因此我们专注在剩下的部分,属性、关系、区域描述和问答对
  在6.1节,我们展示两个在属性预测方面的实验结果。首先,我们将属性和物体独立看待,并且为每个属性训练一个分类器。第二个实验中,我们联合地训练物体和属性分类器,从而对物体-属性对进行预测。
  在6.2节,我们展示了两个在关系预测方面的实验。第一个实验中,我们的目的是预测两个物体之间 的predicate,比如预测kicking或者wearing。实验和现有的动作识别方面的工作类似。第二个实验中,我们通过联合地对物体和关系进行识别(如预测kicking(man,ball))来对关系进行研究;我们展示出这个任务困难性,因为relationship的外观的高度变化性(比如ball可能是on the ground有可能是mid-air above a man)。这些实验是研究物体的空间关系和推导人与物体之间关系的任务的进一步泛化。
  在6.3中,我们展示了region caption的任务,这和image caption很接近,但是两个任务的结果便可以直接进行比较,因为region caption都是短而不全的句子。我们训练一个目前state-of-the-art的image caption生成器,分别是在(1)我们的数据集上以生成区域描述(2)Flickr20K上以生成句子描述。为了比较两种训练手段的结果,我们用简单的模板将区域描转换为完整的句子。为了得到一个更鲁棒的评价,我们用人工对生成的描述进行验证。
  最后在6.4节中,我们进行了VQA的实验,给模型图片和问题,模型要得到一个答案。

6.1 Attribute prediction

  属性在计算机视觉中变得越来越重要,因为他们为不同的问题提供了高层次的语义线索并且可以对图片有一个更深的理解。我们可以通过属性展示properties的变化性,比如形状(sliced),功能(decorative),情绪(angry)甚至意图(helping)。为了区别相似的物体,这要求更细粒度的分类。而通过与已知类别共享的属性来描述没有见过的类别则被叫做zero-shot learning。VG是最大的属性数据集,平均每张图有26个属性,总共2.8百万个属性。
  Setup.两个实验中,我们都专注与数据集中最常见的100个属性。我们只只使用出现了至少100次并且至少在一张图中有100个属性中的1个的那些物体。两个实验我们都用类似的数据预处理流水线啊。首先,小写(lowercase),提取主干(lemmatize),去掉空格。因为每个属性类别的样本数目都不一样,我们

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值