小健哥249-CSDN博客

2025-09-09 20:42:58 813

原创 Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces

技术现状与应用：3D 场景图预测近期发展迅速，已支撑多个领域应用（如 3D 重建场景推理、机器人交互、在线生成、开放词汇表场景图、大规模分层场景图），且其性能依赖 3D 场景理解技术的进步（用于提取物体及语义、建模物体关系）。现有方法的核心局限性：当前 3D 场景图仅以 “物体” 为节点、以 “空间关系” 为边（如 “物体位置关联”），但缺乏对 “小型交互元素” 及 “物体与交互元素功能关系” 的表示，导致无法支持精细交互（如 “开关控灯”）和高层次功能推理。本文核心思路与价值。

2025-09-04 19:52:58 783

原创 3D VSG：基于3D可变场景图的长期语义场景变化预测

本文提出可变场景图(VSG)来建模共享环境中长期语义场景变化，扩展传统3D场景图(SG)增加变异性属性。VSG通过位置、状态和实例三种变异性表示离散长期变化，采用监督学习方法DeltaVSG(基于GCN)预测场景变化。实验表明，该方法在3DSSG和3RScan数据集上优于MLP、Transformer等基线模型，准确率和F1分数显著提升，能有效支持机器人主动变化检测任务。核心创新是将场景变化预测问题形式化为变异性估计任务，并通过语义-几何双嵌入提升预测性能。

2025-08-27 16:40:10 603

原创基于点云的3D场景图生成的语言引导语义对齐

本文提出LAP模型用于3D场景图生成，仅使用点云和文本输入（无需RGB图像）来预测实例类别和关系。模型通过CLIP文本编码器对齐对象、谓词和三元组特征，引入三种损失函数。实验在3DSSG数据集上进行，采用PointNet和MMGNet架构，冻结CLIP文本编码器提取特征。该方法克服了现有多模态方法对RGB图像的依赖问题。

2025-08-20 13:46:41 238

原创 Open3DDSG：具有可查询对象和开放集关系的点云开放词汇3D场景图

本文提出了一种开放词汇3D场景图预测方法Open3DSG，突破传统固定标签集的限制。通过将3D图神经网络与2D视觉语言模型（VLMs）对齐，实现从点云直接预测任意物体类别和关系。该方法首次支持动态查询，在闭集基准测试中表现优异，尤其对稀有类别预测稳健。实验表明，2D-3D特征融合显著提升性能，验证了开放词汇3D场景理解的可行性。

2025-08-20 10:44:40 1073

原创 Group-Free-3D

近年来，直接从 3D 点云中检测 3D 目标受到了越来越多的关注。为了从不规则的点云中提取目标特征，现有方法通常会进行点分组步骤，将点分配给目标候选体，以便使用类似 PointNet 的网络从分组的点中提取目标特征。然而，由手工设计的分组策略导致的不准确点分配，会降低 3D 目标检测的性能。在本文中，作者提出了一种简单但有效的方法，用于直接从 3D 点云中检测 3D 目标。与将局部点分组到每个目标候选体的方式不同，该方法借助中的注意力机制，利用点云中的所有点来计算目标的特征，其中每个点的贡献在网络训练中。

2025-08-18 18:18:55 389

原创 Point-GCC：通用自监督3D场景预训练

点云的XYZ和RGB特征分别表征不同的方面，但是目前缺乏对两者区分和关联的设计。作者提出了一种通过几何 - 颜色对比（Point-GCC）实现的通用 3D 场景预训练框架，利用孪生网络对齐几何和颜色信息。分层监督机制：点级对比；对象级对比，是缩小与训练和下游任务的差距与架构无关的骨干网络，用以适配下游任务。3D数据的规模和标注难度严重阻碍了有监督的方法，因此众多研究探索在3D无标注的数据上预训练模型，迁移到下游任务。

2025-07-22 20:52:18 1001 1

qq_62754199的博客

原创 Universal Scene Graph Generation(通用场景图生成)