Explain What You See: Open-Ended Segmentation and Recognition of Occluded 3D Objects-CSDN博客

本文链接：https://blog.csdn.net/Lcx559/article/details/129474573

文章提出了一种新的3D物体分割方法，结合Local-HDP和在线增量学习，增强了对高度遮挡物体的检测能力。通过全局到局部3D形状和对象描述符，无需预先构建视觉单词字典，能有效处理遮挡情况。实验表明，这种方法在遮挡数据集上表现出色。

摘要由CSDN通过智能技术生成

Explain What You See: Open-Ended Segmentation and Recognition of Occluded 3D Objects

Abstract

Motivation： Local-HDP对于高度遮挡的物体检测的鲁棒性较差，提出一种新的3D物体的分割方法，将次方法与在线增量学习相结合，从而处理高度遮挡的物体。
Contribution:

基于Local-HDP提出了一种新型的3D物体的分割方法，无需事先构造视觉单词的字典。
基于ABL提出了一种开放式3D目标识别方法，该技术可以处理高度遮挡的物体。

Framework： 利用分割结果生成的标签辅助物体的识别

Method

Local to Global 3D shape Descriptor

输入为BoW层构建的由局部到全局和全局到局部的描述特征，无需再构造字典，每个bin的直方图代表了一个视觉单词。
在这里插入图片描述

Global to Local 3D Object Descriptor

利用GOOD论文中的PCA方法用于获得每个点的三个特征向量，用于表示点的位置信息。对于一个投影点 $p = (α, β)$ ，都可以得到：
$r(\hat{p}) = [\frac{\alpha+\frac{l}{2}}{\frac{l+\epsilon}{2}}]\quad,c(\hat{p}) = [\frac{\beta+\frac{l}{2}}{\frac{l+\epsilon}{2}}]$
其中 $l$ 是支持长度， $n$ 表示bin的个数， $\epsilon$ 表示修正量。
对于一个i行j列的bin可以被描述为：
$bin^{i,j}_{r,c} = \sum_{p\in(r(i),c(j))}{(\frac{(l-d)^2}{l})^2}$
其中，d表示的是 $d=||p-p^*||$ 欧氏距离, $p^*$ 表示的是keypoint这样就获得了三个向量，用于描述每个点对应的bin，一级bin的行列数。将每个点转化到bin上。

3D Object Segmentation using Local-HDP

对于获得的每个bins{ $s_0,s_1,...$ }利用Local-HDP（见另一篇博客）实现局部模型的构建（topic）。

Local Online Variational Inference

两阶段的HDP由迪利克雷过程共享一个基分布 $G_0$ 构成：
$G_0\sim DP(\gamma H)\quad ,G_j \sim DP(\alpha_0G_0)$
$G_j$ 代表一个文档的DP（类似于具体物体的视觉单词的离散分布？），H表示话题上的单词分布。第j个物体的视觉代词通过topic生成。
在这里插入图片描述

这部分的处理于Local-HDP中的过程一致。