- 博客(7)
- 收藏
- 关注
原创 Universal Scene Graph Generation(通用场景图生成)
本文提出通用场景图(USG)表示法,能够整合图像(ISG)、文本(TSG)、视频(VSG)和3D(3DSG)等多种模态的场景信息。针对现有方法孤立处理单模态导致的跨模态对齐困难问题,作者设计了共享掩码解码器框架,通过模态特定编码器提取特征后,利用掩码交叉注意力隐式整合跨模态互补信息。系统包含对象关联器、目标检测头和关系检测器等模块,采用多任务损失函数和文本中心对比学习策略,有效解决了跨模态对象对齐和关系预测问题。该方法在保持各模态特有信息的同时,实现了跨模态场景信息的统一表示。
2025-09-09 20:42:58
813
原创 Open-Vocabulary Functional 3D Scene Graphs for Real-World Indoor Spaces
技术现状与应用:3D 场景图预测近期发展迅速,已支撑多个领域应用(如 3D 重建场景推理、机器人交互、在线生成、开放词汇表场景图、大规模分层场景图),且其性能依赖 3D 场景理解技术的进步(用于提取物体及语义、建模物体关系)。现有方法的核心局限性:当前 3D 场景图仅以 “物体” 为节点、以 “空间关系” 为边(如 “物体位置关联”),但缺乏对 “小型交互元素” 及 “物体与交互元素功能关系” 的表示,导致无法支持精细交互(如 “开关控灯”)和高层次功能推理。本文核心思路与价值。
2025-09-04 19:52:58
783
原创 3D VSG:基于3D可变场景图的长期语义场景变化预测
本文提出可变场景图(VSG)来建模共享环境中长期语义场景变化,扩展传统3D场景图(SG)增加变异性属性。VSG通过位置、状态和实例三种变异性表示离散长期变化,采用监督学习方法DeltaVSG(基于GCN)预测场景变化。实验表明,该方法在3DSSG和3RScan数据集上优于MLP、Transformer等基线模型,准确率和F1分数显著提升,能有效支持机器人主动变化检测任务。核心创新是将场景变化预测问题形式化为变异性估计任务,并通过语义-几何双嵌入提升预测性能。
2025-08-27 16:40:10
603
原创 基于点云的3D场景图生成的语言引导语义对齐
本文提出LAP模型用于3D场景图生成,仅使用点云和文本输入(无需RGB图像)来预测实例类别和关系。模型通过CLIP文本编码器对齐对象、谓词和三元组特征,引入三种损失函数。实验在3DSSG数据集上进行,采用PointNet和MMGNet架构,冻结CLIP文本编码器提取特征。该方法克服了现有多模态方法对RGB图像的依赖问题。
2025-08-20 13:46:41
238
原创 Open3DDSG:具有可查询对象和开放集关系的点云开放词汇3D场景图
本文提出了一种开放词汇3D场景图预测方法Open3DSG,突破传统固定标签集的限制。通过将3D图神经网络与2D视觉语言模型(VLMs)对齐,实现从点云直接预测任意物体类别和关系。该方法首次支持动态查询,在闭集基准测试中表现优异,尤其对稀有类别预测稳健。实验表明,2D-3D特征融合显著提升性能,验证了开放词汇3D场景理解的可行性。
2025-08-20 10:44:40
1073
原创 Group-Free-3D
近年来,直接从 3D 点云中检测 3D 目标受到了越来越多的关注。为了从不规则的点云中提取目标特征,现有方法通常会进行点分组步骤,将点分配给目标候选体,以便使用类似 PointNet 的网络从分组的点中提取目标特征。然而,由手工设计的分组策略导致的不准确点分配,会降低 3D 目标检测的性能。在本文中,作者提出了一种简单但有效的方法,用于直接从 3D 点云中检测 3D 目标。与将局部点分组到每个目标候选体的方式不同,该方法借助中的注意力机制,利用点云中的所有点来计算目标的特征,其中每个点的贡献在网络训练中。
2025-08-18 18:18:55
389
原创 Point-GCC:通用自监督3D场景预训练
点云的XYZ和RGB特征分别表征不同的方面,但是目前缺乏对两者区分和关联的设计。作者提出了一种通过几何 - 颜色对比(Point-GCC)实现的通用 3D 场景预训练框架,利用孪生网络对齐几何和颜色信息。分层监督机制:点级对比;对象级对比,是缩小与训练和下游任务的差距与架构无关的骨干网络,用以适配下游任务。3D数据的规模和标注难度严重阻碍了有监督的方法,因此众多研究探索在3D无标注的数据上预训练模型,迁移到下游任务。
2025-07-22 20:52:18
1001
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅