在三维场景中构造关系

Iron_lyk

已于 2023-11-05 21:45:17 修改

阅读量77

点赞数

分类专栏：机器学习文章标签：人工智能

于 2023-05-20 20:13:21 首次发布

本文链接：https://blog.csdn.net/dududutu/article/details/130473423

版权

机器学习专栏收录该内容

12 篇文章 5 订阅

订阅专栏

文章目录

1.《Free-form Description Guided 3D Visual Graph Network for Object Grounding in Point Cloud》【ICCV'2021】
2.《MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes》【ECCV'2022】

1.《Free-form Description Guided 3D Visual Graph Network for Object Grounding in Point Cloud》【ICCV’2021】

Code：https://github.com/PNXD/FFL-3DOG

3DVG任务有以下三个挑战：

在复杂、多样的文本描述中找到主要的重点，即找到主语（目标对象）；
理解点云场景；
定位目标对象；

为了解决这些问题，这篇文章分别设计了以下三个模块：

首先，提出了一个语言场景图模块来从复杂的文本描述中，捕捉丰富的结构和短语相关性；
其次，引入proposals之间的关系，并加强了初始proposals的视觉特征；
最后，开发了一个文本描述来引导的三维可视化图模块，通过节点匹配策略对短语和建议的全局上下文进行编码。

图形摘要如下所示：
在这里插入图片描述

直白来讲，本文就是做了以下三件事：

首先，将复杂的文本描述划分为三类短语：名词短语、代词和关系短语，基于这些短语构造一个语言场景图 $G^l$ ，其中节点和边缘分别对应于名词短语+代词和关系短语；
其次，基于VoteNet给出的proposals构造出一个proposal relation 图 $G^o$ ，然后利用语言场景图 $G^l$ 计算出一个matching score $\phi_1$ ，以此对 $G^o$ 中的proposals进行裁剪和细化；
最后，将两个图通过节点匹配进行融合，获得本文称之为 description guided 3D visual graph $G^u$ ，以此来进行3DVG任务。

那么这其中有着以下关键问题：

语言场景图如何对语言进行拆解，又如何构造？
视觉场景图内的关系如何构造？通过距离来计算吗？

方法框架图如下：
在这里插入图片描述

Language Scene Graph Module
语言图中的每个节点和边，对应于文本描述L中提到的object和它在L中被提到的与其他object的关系。它是一个有向图。

2.《MORE: Multi-Order RElation Mining for Dense Captioning in 3D Scenes》【ECCV’2022】

Code: https://github.com/SxJyJay/MORE

三维场景中包含了complex inter-object relations，对这些关系进行理解可以使得机器人、智能体更好地理解周围的三维场景，以此来实现更好地交互。这也是之前的工作Scan2Cap[1]的动机，它以此为动机提出3D Dense Caption(3DDC)任务。3DDC的输入是一个点云，输出是点云中每个目标的bbox，以及每个目标的与周围object关系的文本描述，可以将3DDC看作是 3D localization + description generation。但是在Scan2Cap以及相关的工作中，对inter-object关系的构造，是一个神经网络来学习两个object之间的关系（输入是两个object feature的拼接，输出的这两个之间的边），这种方式是比较隐式的，没有对这些复杂的关系进行直接的编码，所以导致了sub-optimal results。

因此这篇文章提出了一个multi-order relation mining（MORE）模型，目的就是学习3D场景中的complex inter-object relations。MORE渐进式的对目标关系进行encode，因为他们认为“complex relations can be deduced from a limited number of basic ones”。MORE先构造一个relation graph，使用下图中的SLGC提取一阶关系（就是每个object与周围一阶节点之间的关系），然后再输入到OTAG模块中提取高阶关系，这个高阶关系就是作者认为场景中的compex relations，生成compex relations这样的一个过程是一个渐进式的过程，符合了最初的动机。
在这里插入图片描述
在最开始构造relation graph时，作者其实是先构造了一个spatial word bank（“left”, “right”, “front”, “behind”, “besides”, “top”, and “bottom”），对于一个object的k-nearst objects，从这个bank中为他们挑选两两之间的关系词。在为两个objects挑选词时，作者设定了一个规则（具体见代码），自适应的去从库中挑选。挑选好后做词嵌入，并使用神经网络将这些嵌入映射到连续空间，以连续空间中表示计算每个边的权重。这样的权重就是所谓的“一阶空间关系”。然后将这些一阶权重作为高阶图卷积的输入，得到的就是高阶空间关系。

其实直白来说，就是分两个阶段，首先使用一个空间关系词库来构造一个一阶relation graph，然后在第一个阶段内，使用一阶图卷积提取所谓的一阶空间关系，最后在第二个阶段内，使用高阶图卷积对一阶空间关系处理，提取所谓的高阶空间关系。

启发：做一个basic relation word bank再根据规则自适应地从中挑选，这一想法以及code可以借鉴。

[1] Chen, Z., Gholami, A., Nießner, M., Chang, A.X.: Scan2cap: context-aware dense captioning in RGB-D scans. In: Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 3193–3203 (2021)

对于3DDC和3DVG（3D Visual Grounding）任务而言，探索目标间的关系都是很重要的，因为这是理解3D scene的重要环节，理解了3D scene才能更好的完成这两个任务。

Feng, M., et al.: Free-form description guided 3D visual graph network for object
grounding in point cloud. arXiv preprint arXiv:2103.16381 (2021)
He, D., et al.: Transrefer3D: entity-and-relation aware transformer for fine-grained
3D visual grounding. In: Proceedings of the 29th ACM International Conference
on Multimedia, pp. 2344–2352 (2021)
Huang, P.H., Lee, H.H., Chen, H.T., Liu, T.L.: Text-guided graph neural networks
for referring 3D instance segmentation. In: Proceedings of the AAAI Conference
on Artificial Intelligence, vol. 35, pp. 1610–1618 (2021)
Yang, Z., Zhang, S., Wang, L., Luo, J.: SAT: 2D semantics assisted training for 3D
visual grounding. arXiv preprint arXiv:2105.11450 (2021)
Yuan, Z., et al.: InstanceRefer: cooperative holistic understanding for visual
grounding on point clouds through instance multi-level contextual referring. In:
Proceedings of the IEEE/CVF International Conference on Computer Vision, pp.
1791–1800 (2021)
Zhao, L., Cai, D., Sheng, L., Xu, D.: 3DVG-transformer: relation modeling for
visual grounding on point clouds. In: Proceedings of the IEEE/CVF International
Conference on Computer Vision, pp. 2928–2937 (2021)

Iron_lyk

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
在三维场景中构造关系

但是在Scan2Cap以及相关的工作中，对inter-object关系的构造，是一个神经网络来学习两个object之间的关系（输入是两个object feature的拼接，输出的这两个之间的边），这种方式是比较隐式的，没有对这些复杂的关系进行直接的编码，所以导致了sub-optimal results。对于3DDC和3DVG（3D Visual Grounding）任务而言，探索目标间的关系都是很重要的，因为这是理解3D scene的重要环节，理解了3D scene才能更好的完成这两个任务。
复制链接

扫一扫

专栏目录