OYSTER：基于LiDAR点云的无监督目标检测方向

最新推荐文章于 2025-04-25 15:24:01 发布

地球实习生

最新推荐文章于 2025-04-25 15:24:01 发布

阅读量529

点赞数 2

分类专栏：论文笔记文章标签：目标检测人工智能计算机视觉

本文链接：https://blog.csdn.net/qq_47821607/article/details/134431207

版权

论文笔记专栏收录该内容

1 篇文章

订阅专栏

OYSTER：基于LiDAR点云的无监督目标检测方向

Title：Towards Unsupervised Object Detection from LiDAR Point Clouds

1 Summary

写完笔记之后最后填，概述文章的内容，以后查阅笔记的时候先看这一段。注：写文章summary切记需要通过自己的思考，用自己的语言描述。忌讳直接Ctrl + c原文。

OYSTER，用于从LiDAR点云中进行无监督目标检测。通过使用弱目标先验（近距离点聚类）作为引导步骤，可以训练一个不需要人工注释的目标检测器，首先利用CNN的平移等变性生成远距离的伪标签，然后从目标轨迹的时间一致性中导出自我监督信号。文章提出的自我训练循环对于教授无监督检测器自我改进非常有效。

2 Research Objective(s)

作者的研究目标是什么？

实现在自动驾驶场景中从3D点云中进行无监督目标检测的目标

3 Problem Statement

问题陈述：作者需要解决的问题是什么

笼统点说，在自动驾驶场景中从3D点云中进行无监督目标检测的问题；
具体点说，当有大量的注释可用时，监督学习借助神经网络的强大性能可以显著解决3D目标检测任务，然而，由于大多数现有数据未标记，人工注释目前是数据驱动学习算法的瓶颈，因为它们需要繁琐的手动工作，在实践中非常昂贵。是否能设计无监督学习算法，让它们自行从原始传感器数据流中发现物体。

在这里插入图片描述

在近距离处，点云非常密集，我们可以清晰地区分簇¹，这促使我们使用先验知识。而在远距离处，点云相对稀疏，物体不太明显，这引导我们探索零样本泛化。

4 Method(s)

作者解决问题的方法/算法是什么？是否基于前人的方法？基于了哪些？

我们的方法OYSTER（Object Discovery via Spatio-Temporal Refinement）巧妙地结合了密度空间聚类、时间一致性、等变性和自监督学习的关键思想，统一了这些思想的框架，充分发挥它们的优势，同时克服了它们的缺点。首先，我们利用点聚类在近距离处获得初始伪标签，以引导目标检测器的启动，其中点密度较高（见图1）。然后，我们采用无监督跟踪来过滤掉在时间上不一致的对象。由于点聚类在长距离处观测稀疏时效果不佳，我们利用CNN的平移等变性来训练高质量的近距离伪标签，并将其零样本泛化到长距离。为了弥合训练和推理中的短距离与长距离之间的密度差异，我们提出了一种新颖的随机LiDAR射线丢失策略。最后，我们设计了一个自我改进循环，其中这个引导模型可以进行自我训练。在每一轮自我改进中，我们利用目标的时间一致性自动调整模型在上一轮迭代中的检测结果，并将这些调整过的输出用作训练的伪标签。我们在Pandaset [68] 和Argoverse V2 Sensor [65] 上的实验证明，OYSTER在标准的基于交并比（IoU）的度量和我们提出的基于碰撞距离（DTC）的度量下，明显优于其他无监督方法。我们希望我们的工作可以成为构建自动随着更多数据而改进且不受人类监督限制的感知系统的一步。

OYSTER有两个训练阶段：初始引导阶段和自我改进阶段。

在这里插入图片描述

注：图2. OYSTER概述，我们的无监督检测方法。在初始引导阶段（步骤1-6）中，我们训练一个CNN来处理近距离点云聚类结果，并依赖于CNN的平移等变性产生全范围的伪标签。我们的训练应用了随机射线丢失²作为数据增强，并在伪标签上使用基于时间一致性的过滤。在自我改进阶段（步骤7）中，我们提出了一个名为Track、Refine、Retrain、Repeat的框架，教导一个无监督检测器进行迭代的自我改进。

4.1 einitial bootstrapping

初始引导阶段利用了点云在近距离处密集且具有清晰的对象簇的事实，因此我们可以通过点聚类³获得合理的近距离边界框种子伪标签。由于卷积网络的平移等变性属性⁴，我们发现在近距离标签上训练的卷积神经网络检测器可以在零样本的情况下通过数据增强（例如射线丢失，随机稀疏化输入）的帮助下泛化到更长的距离。

对于给定的三维 LiDAR 点云 $p∈\mathbb{R}^{N×3}$ ，我们通过以下步骤获取初始种子伪标签 $B^{(0)}$ ：

$B^{(0)}$ ←FitBboxes(Clustering(RemoveGround( $p$ )))

注：

先地面去除（Ground Removal）、再点聚类（Point Clustering）、最后边界框拟合（Bounding Box Fitting）

我们采用二维鸟瞰（Bird-Eye-View，BEV）检测表示法⁵,⁶，每个BEV边界框 $b=(x,y,l,w,\theta)∈B^{(0)}$ 包括质心位置 $(x, y)$ 、长度和宽度 $(l,w) $以及方向 θ。我们对数据集 D 中的每一帧执行此操作，以获取完整的伪标签集合 $B^{(0)}$ 。

对于地面去除，我们使用类似于⁷的线性地面平面拟合，然后在聚类之前移除估计的地面点；
对于聚类，我们使用 DBSCAN[17]；
对于每个点簇的边界框拟合，我们使用现成的算法[74]。

虽然存在更复杂的选择，但这些噪音初始标签已经足够好以启动我们的学习过程。

在近距离范围（通常在具有64束的LiDAR的40米内），物体通常具有清晰的点簇（见图1），因此聚类标签足以用于引导初始训练。然而，在远距离范围内，每个物体的点较少，使得聚类结果不可靠，因此我们应该依赖神经网络在初始标签生成阶段的泛化能力。因此，我们的目标是仅在近距离范围内训练检测器，以便它可以在测试时零样本泛化到更远的范围。我们利用卷积网络的等变性来实现这一目标。按照⁵,⁶的方法，我们仅在近距离训练单阶段CNN检测器，其中CNN的输入是体素化的点云。

4.1.1 数据增强–随机射线丢失

考虑到近距离和远距离之间点密度的差异，我们还提出在训练过程中随机丢弃光束，使得卷积核在稀疏区域表现更好。这对于零样本泛化到远距离是有益的，射线丢弃的数据增强通过首先随机丢弃LiDAR光束，然后在球坐标系下的范围视图图像中均匀间隔的行和列中随机丢弃点来实现。这个过程旨在模拟LiDAR光束在距离增加时更加稀疏的方式。我们发现，当仅在近距离范围进行训练时，射线丢弃有助于CNN在零样本泛化到更远距离时取得显著更好的结果，其表现优于直接在完整范围的聚类标签上训练的CNN。
$\mathrm{CNN^{(0)} \leftarrow Train\bigg( \bigg\{ RayDrop(p_i)\bigg\}_{i\epsilon \mathcal{D}} ,\mathcal{B}^{(0)} \lvert \;near-range \bigg)}$

$\mathcal{B}^{(1)} \leftarrow \bigg\{ \mathrm{NMS\bigg( CNN^{(0)}(Voxelize(p_i))\lvert \;full-range \bigg)\bigg\}_{i\epsilon \mathcal{D}}}$

4.2 self-improvement

自我改进阶段利用对象轨迹的时间一致性作为自监督信号。鉴于时间上的嘈杂检测，我们采用无监督的离线跟踪器找到不同长度的对象轨迹。我们舍弃短轨迹，并细化长轨迹。一个对象轨迹应该在时间上有相同的物体大小，因此我们的细化过程利用轨迹级别的信息来更新长轨迹中的伪标签。

我们在更新的伪标签上训练一个新的检测器，将其输出作为新的伪标签，迭代进行跟踪、细化，并重复。图2描述了整体流程。我们在下面更详细地描述了这两个训练阶段。

尽管比初始标签 $B^{(0)} $好，但经过初始训练和范围扩展后的标签 $B^{(1)} $ 远非完美，需要进一步的细化。我们提出了一个名为“Track, Refine, Retrain, and Repeat”的框架，教导无监督检测器自我改进。我们的框架包括以下步骤：运行无监督跟踪，优化长轨迹，丢弃短轨迹，使用优化的伪标签重新训练检测器，然后使用阈值处理后的检测器输出重复该过程作为下一轮的伪标签。

4.3 Unsupervised Tracking:无监督跟踪

我们遵循检测跟踪的范例，其中在时间序列的每一帧中首先独立获取物体检测结果，然后通过迭代地在两个连续的时间步之间进行离散关联以形成轨迹。为此，我们采用一个简单的参数化在线跟踪器。在时间序列的每个时间步中，每个物体 $j$ 都有一个轨迹片段 $S_{j}^{t}$ ，存储了估计的状态轨迹 $S_{t}=\big\{{S_{j}^{t}=(b,v_{x},v_{y},c),n_{t}^{j}}\big\}$ ，其中 $b$ 对应先前介绍的框参数，( $v_{x},v_{y}$ ) 是2D速度， $n_{t}$ 是到目前为止的轨迹长度，c 是轨迹的置信度分数。给定来自自我训练迭代 $k$ 的伪标签 $B^{(k)}$ ，我们首先预测每个轨迹片段的新状态，然后将检测结果与预测进行匹配。我们采用最简单的预测和匹配策略：预测假定帧之间的速度恒定，匹配基于边界框质心距离的贪婪算法。
$M_{t} \leftarrow Match \big(B^{(\mathrm{k})}_{t},Forecast(S_{t-1}))$

4.4 Pseudo-Label Refinement:伪标签细化

基于时间一致性分数 $\tilde{m}(\mathcal{k})_{t}$ ，我们通过阈值 $q$ 将伪标签划分为短轨迹片段和长轨迹片段。对于具有 $\tilde{m}^{(\mathrm{k})}_{t}$ <q 的短轨迹片段，在下一轮重新训练中我们将忽略它们。对于具有 $\tilde{m}^{(\mathrm{k})}_{t}$ ≥q 的长轨迹片段，我们采用一个简单的过程对其进行细化。由于种子聚类标签具有最紧密包围框拟合的特性， $B^{(k)}$ 中的包围框大小对于部分观测到的对象来说较小，特别是对于那些离自车较远的对象。

为了解决这个问题，对于每个角色轨迹，我们将该角色的新长度和宽度设置为在整个轨迹中检测到的所有长度和宽度的前 r 百分位数。接下来，按照[69]中的基于角点的对齐策略，我们找到距离自车最近的包围框角点，这是最观察到的角点，可能是最可靠的。然后，我们使用锚定的角点、原始包围框方向和新的包围框大小更新包围框中心。图3说明了细化过程。

在这里插入图片描述

4.5 Iterative Self-Training:迭代自我训练

在细化过程之后，我们得到了经过细化的伪标签 $\tilde{B}^{(\mathcal{k})}_{t}$ 并使用它们来指导下一轮的训练：其中 ∅ 表示在检测器重新训练期间不在这个伪对象的位置应用训练损失，即，我们只在伪标签在时间上一致且经过细化的位置进行重新训练。通过重新训练的检测器，我们得到了新一代的伪标签 $B^{(k+1)}$ ，这些标签可以进一步细化并用于重新训练。总的来说，我们的Track, Refine, Retrain, and Repeat框架构建了一个对象发现循环，检测器在自我训练过程中迭代地在质量逐渐提高的伪标签上进行重新训练。
$\tilde{B}^{(\mathcal{k})}_{t}= \begin{cases} Renfine(\vec{S})^{(k)}_{t} \quad \tilde{m}^{(\mathrm{k})}_{t} ≥q\\ \phi \qquad\qquad\qquad\;\; otherwise \end{cases}$

$\mathrm{CNN^{(k)} \leftarrow Train\bigg( \bigg\{ RayDrop(p_i)\bigg\}_{i\epsilon \mathcal{D}} ,\mathcal{\tilde{B}}^{(k)} \lvert \;full\!\!\!-\!\!range \bigg)}$

$\mathcal{B}^{(k+1)} \leftarrow \bigg\{ \mathrm{NMS\bigg( CNN^{(k)}(Voxelize(p_i))\lvert \;full-range \bigg)\bigg\}_{i\epsilon \mathcal{D}}}$

5 Evaluation

作者如何评估自己的方法，实验的setup是什么样的，有没有问题或者可以借鉴的地方。

实验评估

在本节中，我们首先概述我们使用的数据集和指标，包括基于碰撞距离的新提出的检测指标。接下来，我们展示我们的方法优于最先进的无监督检测方法。最后，我们通过对不同组件的彻底消融研究，提供我们贡献的定量和定性见解。

5.1 Datasets and Experiment Setting:

我们使用 Pandaset ⁸ 和 Argoverse 2 Sensor ⁹（简称为AV2）在两个不同的传感器套件上评估我们的方法。

Pandaset 包含103个8秒钟的片段，记录在旧金山密集的城市交通以及El Camino Real高速公路上。

在我们的实验中，我们使用旋转的Pandar64 LiDAR。它包含28种不同的注释类别，我们将其分为3个主要类别：车辆、骑自行车者和行人。

在训练期间不使用任何注释；在测试时，我们对三个主要类别进行类别无关的评估，因为我们的目标是训练一个无监督的目标检测器，可以检测任何对象。

	我们将数据集分为73个训练片段和30个验证片段。两个分割均匀分布在旧金山和El Camino Real两地
	AV2数据集是在美国六个不同城市收集的，这些城市的天气各异（从多雪到晴朗）。它包含850个片段，每个片段长15秒。
	LiDAR数据来自两个32束LiDAR，以相同的方向以10 Hz旋转，但在方向上相隔180度。
	我们使用官方的训练和验证分割，分别有700和150个片段。
	对于我们的检测模型，我们专注于前方范围设置，感兴趣区域（ROI）的纵向范围为[0, 80]米，横向范围为[-40, 40]米，相对于自动车的行驶方向。
	所选的ROI允许我们评估近距离和远距离的检测。

5.2 Implementation Details:

对于标签的细化，我们在Pandaset和AV2中都使用轨迹长度q = 6。为了更新长轨迹中的边界框大小，我们对于Pandaset使用r = 100%，对于AV2使用r = 95%。对于Pandaset，我们进行了三轮自我训练，只在最后一轮训练中应用长轨迹细化。对于AV2，我们进行了两轮自我训练，在每一轮训练中都进行长轨迹的细化。检测模型、跟踪器和训练的更多细节已包含在附录中。

5.3Metrics:

我们的度量标准关注评估一种能够检测任何对象的类别无关的目标检测器的目标。常用的IoU（交并比）在一侧对象尺寸的不准确估计方面往往过于惩罚，由于观察不完美，这一方面本质上难以预测，但我们主要关心被检测对象距自动驾驶车辆有多远的准确预测。在合并所有类别（车辆、行人和骑行者）的注释后，我们提出以下评估步骤，以全面了解不同方法的性能：

测量平均精度（Average Precision，AP）和召回率。
一种基于标准交并比（IoU）——该标准捕捉了我们对对象尺寸的预测效果，以及一种基于距离碰撞差异（∆DTC）的新度量标准——该度量标准衡量了我们对对象距离车辆的预测效果。

5.4 BaseLine：

我们按照[71]的方法，与以下无监督基准模型进行比较。

DBSCAN [17]执行基于密度的空间聚类，将具有许多附近邻居的点分组在一起。

DBSCAN + init-train使用DBSCAN标签监督学习物体检测器。

DBSCAN + self-train在初始训练后添加了两轮自我训练，其中物体检测器的阈值检测输出用作自我训练的伪标签。

PP score [71]**通过测量点邻域中LiDAR点数量的方差来估计点的持久性。**这些PP分数然后可以用作聚类的特征，检索具有低PP分数的移动对象。请注意，在原始论文中，假设在相同区域上进行多次遍历，这对数据收集提出了非常严格的要求。为了避免对数据收集施加这一严格要求，我们仅考虑在短时间内进行的单次遍历（即片段的长度内进行多次观测）。

PP score + init-train在基于持久性的聚类标签上进行一轮训练。

最后，MODEST（1 traversal）在初始训练后添加了两轮自我训练，其中在每一轮中，来自最新自我训练模型的伪标签使用PP分数进行过滤，以丢弃持久聚类。

5.5 Benchmark against state-of-the-art:

表1和表2显示了在Pandaset和Argoverse V2 Sensor数据集中与最先进的无监督方法进行比较的结果。结果表明，MODEST（1 traversal）非常依赖于在相同区域上进行多次遍历。我们的方法OYSTER在所有IoU和距离阈值上都明显优于先前的方法，无论是在平均精度还是召回率方面。

在这里插入图片描述

图5显示了我们的方法能够克服基线的失败模式，例如静止对象的误报、长距离处高密度的误报以及一些定位和尺寸估计错误。

在这里插入图片描述

5.6 Effect of the initial training range an dray-dropping:

由于点云聚类标签在近距离具有更高的点密度，我们发现首先在近距离LiDAR图像上进行训练，使用近距离聚类标签，然后依赖ConvNets的平移不变性特性，可以实现零样本泛化到更远距离。这在表3的M1→M2中经验性地得到了证明，其中从短距离（0-40m）到全距离（0-80m）的零样本泛化（M2）效果明显优于直接在全距离上训练（M1）。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们还发现，在初步训练期间采用随机射线丢失作为数据增强技术（M2→M3）有助于ConvNet更好地泛化到更远距离，以便检测更多的对象，尽管在高IoU值处评估的度量显示出它在定位准确性上略有牺牲，这可能是因为射线丢失鼓励检测器更专注于朝向自车的对象一侧而不是整体对象形状。

5.7 Effect of self-training loop and long tracklet refinement:

在这里插入图片描述

6 Conclusion

作者给出了哪些结论，哪些是strong conclusions, 哪些又是weak的conclusions（即作者并不确定，只在discussion中提到，或没有给出足够的evidence）?

提出了一种新颖的方法，OYSTER，用于从LiDAR点云中进行无监督目标检测。通过使用弱目标先验（近距离点聚类）作为引导步骤，我们的方法可以训练一个不需要人工注释的目标检测器，首先利用CNN的平移等变性生成远距离的伪标签，然后从目标轨迹的时间一致性中导出自我监督信号。我们提出的自我训练循环对于教授无监督检测器自我改进非常有效。我们在两个真实世界的数据集，Pandaset和Argoverse 2 Sensor上验证了我们的结果，其中我们的模型在性能上显著优于先前的无监督方法。

7 Notes(optional)

不在以上列表中，但需要特别记录的笔记。

7.1 监督学习/半监督学习/弱监督学习/无监督学习/自监督学习

7.1.1 监督学习（Supervised Learning）

定义： 
	在监督学习中，模型从带有标签的训练数据中学习，其中每个输入样本都有一个对应的目标输出标签。模型的目标是学会从输入到输出的映射，以便对新的、未标记的数据进行预测。
示例： 
	图片分类是一个监督学习的示例，其中训练数据包括图片和与之相关联的标签（例如，猫、狗、汽车等）。

7.1.2 半监督学习（Semi-Supervised Learning）

定义： 
	在半监督学习中，模型使用同时包含标签和未标签样本的混合数据进行训练。这允许模型在部分数据上进行监督学习，同时利用未标签数据进行更全面的学习。
示例： 
	在一个大型图像数据集中，只有一小部分图像可能被标记，而其他图像则没有标签。半监督学习的目标是更好地泛化到未标签的图像。

7.1.3 弱监督学习（Weakly Supervised Learning）

定义： 
	弱监督学习涉及使用比完全标签更弱的标签进行训练，可能是不完整、不准确或部分准确的标签。这种学习范式旨在应对标注大规模数据的成本问题。
示例：
	在弱监督目标检测中，可能只知道图像中存在物体，而不知道物体的确切位置。模型需要从这些弱标签中学习目标检测任务。

7.1.4 无监督学习（Unsupervised Learning）

定义： 
	无监督学习涉及处理没有标签的数据。模型的目标是从数据中发现模式、结构或特征，而不是进行明确的预测。无监督学习可以用于聚类、降维、密度估计等任务。
示例： 
	K均值聚类是一个无监督学习的示例，它试图将数据分成不同的簇，而没有事先知道每个簇的标签。

7.1.4.1 K均值聚类

K均值聚类（K-Means Clustering）是一种常用的无监督学习算法，用于将数据集划分成K个不同的组（簇），其中K是用户定义的参数。这个算法的目标是将数据点划分到簇中，使得每个数据点与其所属簇的中心点（质心）的距离平方和最小。

K均值聚类的步骤如下：

选择簇的数量 K： 用户需要事先指定希望将数据划分为多少个簇。
初始化质心： 从数据集中随机选择 K 个数据点作为初始簇中心。
分配数据点： 将每个数据点分配到离它最近的簇中心所属的簇。
更新簇中心： 对于每个簇，计算其所有数据点的平均值，并将该平均值作为新的簇中心。
重复步骤 3 和 4： 重复执行步骤 3 和 4，直到簇中心不再发生显著变化，或者达到预定的迭代次数。

K均值聚类的优点包括简单易实现、计算效率高。然而，它也有一些缺点，比如对初始质心的敏感性，可能会收敛到局部最小值，以及对异常值和噪声敏感。

K均值聚类通常应用于数据集的聚类分析，其中我们希望将数据点划分为不同的组，以便发现数据的内在结构。它在图像压缩、图像分割、市场细分等领域都有着广泛的应用。

7.1.5 自监督学习（Self-Supervised Learning）

定义： 
	自监督学习是一种无监督学习的方法，其中模型通过自动生成标签来学习。输入数据的某些部分被用作预测其他部分，模型的目标是最大程度地减小这些预测的误差。
示例： 
	在自监督学习中，可以将图像中的某些区域遮挡，然后训练模型去预测被遮挡区域的内容，从而学习图像的表示。

7.2 与无监督目标检测密切相关的三个子领域的研究

7.2.1 以物体为中心的模型

通往无监督检测的一个有前途的路径，被广泛描述为视觉逆图形学：学习具有结构化解码器（或渲染器）的深度生成模型，使得编码器需要将场景分解为对象和部分，并推断它们的方向。在深度学习时代，这类模型通常被称为以物体为中心的模型。但基于此类模型的方法都只在玩具数据集上展示过其工作效果

7.2.2 无监督目标提议

许多方法直接利用各种线索发现对象，而不一定使用生成模型。

。。。

同时，¹⁰利用场景流估计生成种子标签，用于训练无监督LiDAR检测器。我们的方法最初应用点聚类，但我们的核心贡献是一种基于学习的方法，可以迭代自我改进。与我们的方法相比，¹⁰依赖于无监督场景流来检测对象，因此不能检测静态对象。

此外，它仅限于点云对齐方法[3]可靠的短范围内。⁷不需要场景流，但需要对相同位置进行重复遍历。与之同时进行的工作[64]需要无监督场景流和相机输入进行3D实例分割。我们的方法既不需要场景流，也不需要相机输入或重复遍历，因此可以直接应用于任何LiDAR序列。

。。。

7.2.3 开放集检测

另一类方法处理弱监督设置，系统在某些已知对象上被给予标签，但被期望自行发现未知的内容[12]。对于2D目标检测，先前的方法包括贝叶斯方法[50]和用于不确定性估计的辍学抽样[46]。还提出了一种称为开放世界目标检测的新设置¹¹，其中视觉系统顺序接收新的标记实例，这些实例属于长尾类别¹¹。还研究了用于开放世界设置的检测变换器¹²。对于3D LiDAR 目标检测，先前的方法包括 OSIS[66] 和 open-set 3d-net[9]；然而，它们没有研究完全无监督的情境。

7.3 积神经网络（CNN）的平移等变性

卷积神经网络（CNN）的平移等变性指的是网络对于输入的平移具有等变性，即输入图像的平移在网络的输出中会产生相应的平移。这是由于CNN中的卷积操作，它在输入图像上通过卷积核（filter）进行滑动操作，从而检测图像中的特征。由于卷积核与输入进行卷积时是共享权重的，因此对输入图像进行平移操作，相应的卷积核也会以相同的方式在输出上进行平移。

这种平移等变性使得CNN对于在图像中移动的物体或特征能够保持鲁棒性。在上下文中，作者提到CNN在近距离标签上训练后可以零样本泛化到更长的距离，这可能涉及到CNN对于平移等变性的利用，使得在近距离训练的模型可以泛化到不同位置的场景。

7.4 点聚类

点聚类是一种将数据点按照它们的相似性进行分组的技术。

在点云处理和机器学习领域，点聚类常常用于对三维空间中的点进行分组，以便更好地理解场景、检测对象或执行其他相关任务。

基本上，点聚类通过度量点之间的相似性（通常使用欧氏距离或其他距离度量）来将它们分组到簇中。这样的相似性通常基于点之间的空间接近性，即在三维空间中彼此靠近的点更有可能属于同一簇。点聚类算法的目标是将点云划分为具有相似特征的簇，使得同一簇内的点相似度高，而不同簇之间的点相似度较低。

常见的点聚类算法包括 K均值聚类（K-Means Clustering）、DBSCAN（Density-Based Spatial Clustering of Applications with Noise）、层次聚类等。这些算法在处理点云数据时，可以帮助识别和分离出其中的不同物体或场景元素。

7.5 随机射线丢失

"随机射线丢失" 是一种数据增强技术，通常在训练神经网络时用于提高模型的鲁棒性和泛化能力。在点云处理或三维数据处理的背景下，这种技术可能被用于处理 LiDAR 数据或其他传感器生成的点云。

具体而言，随机射线丢失涉及到在输入数据中随机删除（丢失）一些信息。在 LiDAR 数据中，这可能表示在点云中随机移除一些激光束或点，以模拟在真实场景中可能遇到的数据缺失或传感器噪声。

这样的数据增强有助于训练模型更好地应对真实世界中的各种条件，使其更具有鲁棒性和泛化性。对于 OYSTER 方法中的随机射线丢失，它可能被用于初始引导阶段的训练，以帮助模型在近距离点云聚类中更好地处理数据。

7.6 时间一致性

时间一致性是指在不同时间点上观察到的数据或状态之间的一致性或稳定性。在这个上下文中，时间一致性指的是通过跟踪物体在时间上的变化来保持物体检测或识别结果的一致性。具体来说，在物体检测任务中，通过检测器追踪同一物体在不同帧或时间点上的位置、形状等信息，以确保检测结果在时间上是连贯和一致的。

在本文中，作者利用时间一致性作为一种自监督信号，通过运行无监督跟踪器来获取物体的轨迹信息。这个轨迹信息被用来进一步优化和改进检测结果，从而提高检测器在时间上的一致性。

7.7 贪婪算法

贪婪算法（Greedy Algorithm）是一种在每一步选择中都采取在当前状态下最优决策的算法。它的基本思想是通过每一步的局部最优选择，期望最终能够达到全局最优。

在文中提到的贪婪算法用于匹配检测结果和预测，具体来说，是基于边界框质心距离进行贪婪匹配。在这个上下文中，贪婪匹配意味着在当前时间步中，将每个伪标签与轨迹片段匹配，选择距离最近的轨迹片段进行匹配，而不考虑全局上的最优匹配。这种贪婪匹配策略可能导致局部最优解，但不一定能够得到全局最优解。在实际应用中，贪婪算法通常简单且高效，但需要注意可能存在的局限性。

8 References(optional)

列出相关性高的文献，以便之后可以继续track下去。

在数据分析和机器学习的上下文中，“clusters”（簇）通常指的是数据集中具有相似特征或属性的数据点的组合。簇是一种将数据点分组的方式，其中组内的数据点彼此相似，而组间的数据点相对较不相似。在"Near-range: dense point cloud with clear clusters"这个文本中，"clear clusters"指的是在近距离处，点云中存在明显可辨的组群或簇，也就是具有相似特征的点被聚集在一起形成清晰的群组。这可能意味着在空间中有一些物体或场景，它们的点在点云中形成了紧密的聚集，使得它们在近距离处更容易被区分和识别。 ↩︎
“随机射线丢失” 是一种数据增强技术，通常在训练神经网络时用于提高模型的鲁棒性和泛化能力。在点云处理或三维数据处理的背景下，这种技术可能被用于处理 LiDAR 数据或其他传感器生成的点云。 ↩︎
点聚类是一种将数据点按照它们的相似性进行分组的技术。 ↩︎
即输入图像的平移在网络的输出中会产生相应的平移。这是由于CNN中的卷积操作，它在输入图像上通过卷积核（filter）进行滑动操作，从而检测图像中的特征。由于卷积核与输入进行卷积时是共享权重的，因此对输入图像进行平移操作，相应的卷积核也会以相同的方式在输出上进行平移。 ↩︎
Pointpillars:Fastencoders forobjectdetectionfrompointclouds.InProceedingsof theIEEE/CVFconferenceoncomputervisionandpattern recognition,pages12697–12705,2019. ↩︎ ↩︎
Pixor:Realtime3dobjectdetectionfrompointclouds.InProceedingsof theIEEEconferenceonComputerVisionandPatternRecognition,pages7652–7660,2018. ↩︎ ↩︎
Learningtodetectmobileobjectsfromlidar scanswithoutlabels.InCVPR,2022. ↩︎ ↩︎
Pandaset: Advanced sensor suite dataset for autonomous driving. ↩︎
Argoverse 2: Next generation datasets for self-driving perception and forecasting. ↩︎
Motion Inspired Unsupervised Perceptionand Prediction in Autonomous Driving. InEuropeanConferenceonComputer Vision,pages424–443.Springer,2022. ↩︎ ↩︎
Towardsopenworldobjectdetection.InIEEEConferenceonComputerVisionandPattern Recognition,CVPR2021,virtual,June19-25,2021,pages ↩︎ ↩︎
End-to-EndObjectDetectionwithTransformerss.InEuropeanconferenceoncomputervision,pages213–229.Springer,2020. ↩︎