在三维场景中构造关系


1.《Free-form Description Guided 3D Visual Graph Network for Object Grounding in Point Cloud》【ICCV’2021】

Code:https://github.com/PNXD/FFL-3DOG

3DVG任务有以下三个挑战:

  • 在复杂、多样的文本描述中找到主要的重点,即找到主语(目标对象);
  • 理解点云场景;
  • 定位目标对象;

为了解决这些问题,这篇文章分别设计了以下三个模块:

  • 首先,提出了一个语言场景图模块来从复杂的文本描述中,捕捉丰富的结构和短语相关性;
  • 其次,引入proposals之间的关系,并加强了初始proposals的视觉特征;
  • 最后,开发了一个文本描述来引导的三维可视化图模块,通过节点匹配策略对短语和建议的全局上下文进行编码。

图形摘要如下所示:
在这里插入图片描述

直白来讲,本文就是做了以下三件事:

  • 首先,将复杂的文本描述划分为三类短语:名词短语、代词和关系短语,基于这些短语构造一个语言场景图 G l G^l Gl,其中节点和边缘分别对应于名词短语+代词和关系短语;
  • 其次,基于VoteNet给出的proposals构造出一个proposal relation 图 G o G^o Go,然后利用语言场景图 G l G^l Gl计算出一个matching score ϕ 1 \phi_1 ϕ1,以此对 G o G^o Go中的proposals进行裁剪和细化;
  • 最后,将两个图通过节点匹配进行融合,获得本文称之为 description guided 3D visual graph G u G^u Gu,以此来进行3DVG任务。

那么这其中有着以下关键问题:

  • 语言场景图如何对语言进行拆解,又如何构造?
  • 视觉场景图内的关系如何构造?通过距离来计算吗?

方法框架图如下:
在这里插入图片描述

  1. Language Scene Graph Module
    语言图中的每个节点和边,对应于文本描述L中提到的object和它在L中被提到的与其他object的关系。它是一个有向图。

2.《MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes》【ECCV’2022】

Code: https://github.com/SxJyJay/MORE

三维场景中包含了complex inter-object relations,对这些关系进行理解可以使得机器人、智能体更好地理解周围的三维场景,以此来实现更好地交互。这也是之前的工作Scan2Cap[1]的动机,它以此为动机提出3D Dense Caption(3DDC)任务。3DDC的输入是一个点云,输出是点云中每个目标的bbox,以及每个目标的与周围object关系的文本描述,可以将3DDC看作是 3D localization + description generation。但是在Scan2Cap以及相关的工作中,对inter-object关系的构造,是一个神经网络来学习两个object之间的关系(输入是两个object feature的拼接,输出的这两个之间的边),这种方式是比较隐式的,没有对这些复杂的关系进行直接的编码,所以导致了sub-optimal results。

因此这篇文章提出了一个multi-order relation mining(MORE)模型,目的就是学习3D场景中的complex inter-object relations。MORE渐进式的对目标关系进行encode,因为他们认为“complex relations can be deduced from a limited number of basic ones”。MORE先构造一个relation graph,使用下图中的SLGC提取一阶关系(就是每个object与周围一阶节点之间的关系),然后再输入到OTAG模块中提取高阶关系,这个高阶关系就是作者认为场景中的compex relations,生成compex relations这样的一个过程是一个渐进式的过程,符合了最初的动机。
在这里插入图片描述
在最开始构造relation graph时,作者其实是先构造了一个spatial word bank(“left”, “right”, “front”, “behind”, “besides”, “top”, and “bottom”),对于一个object的k-nearst objects,从这个bank中为他们挑选两两之间的关系词。在为两个objects挑选词时,作者设定了一个规则(具体见代码),自适应的去从库中挑选。挑选好后做词嵌入,并使用神经网络将这些嵌入映射到连续空间,以连续空间中表示计算每个边的权重。这样的权重就是所谓的“一阶空间关系”。然后将这些一阶权重作为高阶图卷积的输入,得到的就是高阶空间关系。

其实直白来说,就是分两个阶段,首先使用一个空间关系词库来构造一个一阶relation graph,然后在第一个阶段内,使用一阶图卷积提取所谓的一阶空间关系,最后在第二个阶段内,使用高阶图卷积对一阶空间关系处理,提取所谓的高阶空间关系。

启发:做一个basic relation word bank再根据规则自适应地从中挑选,这一想法以及code可以借鉴。

[1] Chen, Z., Gholami, A., Nießner, M., Chang, A.X.: Scan2cap: context-aware dense captioning in RGB-D scans. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 3193–3203 (2021)

对于3DDC和3DVG(3D Visual Grounding)任务而言,探索目标间的关系都是很重要的,因为这是理解3D scene的重要环节,理解了3D scene才能更好的完成这两个任务。

  1. Feng, M., et al.: Free-form description guided 3D visual graph network for object
    grounding in point cloud. arXiv preprint arXiv:2103.16381 (2021)

  2. He, D., et al.: Transrefer3D: entity-and-relation aware transformer for fine-grained
    3D visual grounding. In: Proceedings of the 29th ACM International Conference
    on Multimedia, pp. 2344–2352 (2021)

  3. Huang, P.H., Lee, H.H., Chen, H.T., Liu, T.L.: Text-guided graph neural networks
    for referring 3D instance segmentation. In: Proceedings of the AAAI Conference
    on Artificial Intelligence, vol. 35, pp. 1610–1618 (2021)

  4. Yang, Z., Zhang, S., Wang, L., Luo, J.: SAT: 2D semantics assisted training for 3D
    visual grounding. arXiv preprint arXiv:2105.11450 (2021)

  5. Yuan, Z., et al.: InstanceRefer: cooperative holistic understanding for visual
    grounding on point clouds through instance multi-level contextual referring. In:
    Proceedings of the IEEE/CVF International Conference on Computer Vision, pp.
    1791–1800 (2021)

  6. Zhao, L., Cai, D., Sheng, L., Xu, D.: 3DVG-transformer: relation modeling for
    visual grounding on point clouds. In: Proceedings of the IEEE/CVF International
    Conference on Computer Vision, pp. 2928–2937 (2021)


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值