3D 语义分割——Scribble-Supervised LiDAR Semantic Segmentation

😸论文(CVPR2022 Oral)主要贡献:

  1. 提出第一个涂鸦标注(scribble-annotated) 的激光雷达语义分割数据集 ScribbleKITTI
  2. 提出类范围平衡的自训练(class-range-balanced self-training)来应对伪标签对占据主要数量的类和近距离密集区域的偏好(bias)问题
  3. 通过金字塔局部语义上下文描述子(pyramid local semantic-context descriptor) 来增强输入的点云,从而提高伪标签的质量
  4. 通过将第 23 点与 mean teacher 框架结合,论文提出的 pipeline 可在仅使用 8% 的标注点下实现 95.7% 的全监督(fully-supervised)性能

😿密集标注(densely annotating)激光雷达点云开销仍然过大,从而无法跟上不断增长的数据量。目前 3D 语义分割的科研工作主要集中在全监督的方法上,而利用弱监督(weak supervision)来实现有效的 3D 语义分割方法尚未被探索。因此,论文提出了使用涂鸦(scribbles)对激光雷达点云进行标注,并发布了第一个用于 3D 语义分割的涂鸦标注(scribble-annotated)数据集 ScribbleKITTI。但这也导致那些包含边缘信息的未标注(unlabeled)点并未被使用,且由于缺乏大量标注点(该方法只使用 8% 的标注点)的数据,影响了具有长尾分布的类置信度(受到的监督减少了),最终使得模型性能有所下降

😸因此,论文提出了一个用以减少使用这种弱标注(weak annotations)时出现的性能差距的 pipeline,该 pipeline 由三个独立的部分组成,可以与任何 LiDAR 语义分割模型相结合,论文代码采用 Cylinder3D 模型,若对 Cylinder3D 感兴趣可参考我之前的一篇博客。其在只使用 8% 标注的情况下,可达到 95.7% 的全监督性能

ScribbleKITTI 数据集

在这里插入图片描述

🙀使用涂鸦标注在 2D 语义分割中是一种较为流行且有效的方法,但与 2D 图像不同,3D 点云保留了度量(metric)空间,导致其具有高度的几何结构。为了解决这一问题,论文建议使用更几何化的直线涂鸦(line-scribble)来标注激光雷达点云,与 free-formed 涂鸦相比,直线涂鸦可以更快地标注跨越大距离的几何类(如:道路,人行道等),且直线涂鸦只需要知道这些点(某一类的点云)的起始与结束位置。正如上图汽车(蓝色线条)所示,只需确定两点即可完成标注。这将使原先需要花 1.5-4.5 个小时的标注时间减少到 10-25 分钟。

😸ScribbleKITTI 数据集是基于 SemanticKITTI 的 train-split 部分来标注的。其中,SemanticKITTI 的 train-split 部分包含 10 个 sequences、19130 个 scans、2349 百万个点;而 ScribbleKITTI 只包含 189 百万个标注点。

😿如上面 Figure 3 所示,论文中直线涂鸦主要是将 2D 的线条投影到 3D 表面,这会导致在视角改变时直线涂鸦会变得很模糊(indistinguishable)。

网络结构

在这里插入图片描述

  • 论文提出的 pipeline 可分为 trainingpseudo-labelingdistillation 这三个阶段,这三个阶段紧密联系,提高生成的伪标签质量,从而提高模型的精度
  • 在 training 阶段,首先通过 PLS 来对数据进行增强,再训练 mean teacher,这有利于后面生成更高质量的伪标签
  • 在 pseudo-labeling 阶段,通过 CRB 来产生目标标签,降低由于点云自身属性降低生成伪标签的质量
  • 在 distillation 阶段,通过前面生成的伪标签再对 mean teacher 进行训练
  • mean teacher 中 L S L_S LS L U L_U LU 分别对应有标注的点和未标注的点各自的损失

Partial Consistency Loss with Mean Teacher

  • mean teacher 框架由 2 部分组成,分别是权值为 θ \theta θ学生网络和权值为 θ E M A \theta^{EMA} θEMA教师网络。通常,学生网络的权值通过梯度下降获得,而教师网络的权值则由指数加权平均(exponential moving average)学生的权值获得,其计算公式如下:

θ t E M A = α θ t − 1 E M A + ( 1 − α ) θ t \theta_t^{EMA} = \alpha \theta_{t-1}^{EMA} + (1-\alpha)\theta_t θtEMA=αθt1EMA+(1α)θt

✍️其中, θ t \theta_t θt 为第 t t t 步中学生网络的权值 θ t E M A \theta_t^{EMA} θtEMA 为第 t t t 步中教师网络的权值 α \alpha α平滑系数。通过指数加权平均,可避免 Temporal Ensembling 方法的局限性,且可得到更为精准的模型(相比于直接使用训练的到的权重)

  • partial consistency loss 仅将 consistency loss 用在未标注的点上,这样可通过减少教师网络注入(injected)的不确定性来对标注点进行更严格的监督,同时利用更精准的教师网络输出来对未标注点进行监督。其损失函数如下:

min ⁡ θ ∑ f = 1 F ∑ i = 1 ∣ P f ∣ G i , f = { H ( y ^ f , i ∣ θ , y f , i ) , p f , i ∈ S l o g ( y ^ f , i ∣ θ ) y ^ f , i ∣ θ E M A , p f , i ∈ U \min_{\theta} \sum_{f=1}^{F} \sum_{i=1}^{|P_f|}G_{i, f} = \begin{cases} H(\hat{y}_{f, i}|_{\theta}, y_{f, i}), & p_{f, i} \in S \\ log(\hat{y}_{f, i}|_{\theta})\hat{y}_{f, i}|_{\theta^{EMA}}, & p_{f, i} \in U \end{cases} θminf=1Fi=1PfGi,f={H(y^f,iθ,yf,i),log(y^f,iθ)y^f,iθEMA,pf,iSpf,iU

✍️其中, S S S 是有标注的点, U U U 是未标注的点, H H H 是损失函数(通常为 cross-entropy), F F F 为点云帧数, ∣ P f ∣ |P_f| Pf 为某一帧点的数量, y ^ f , i ∣ θ \hat{y}_{f, i}|_{\theta} y^f,iθ 为学生网络的预测值, y f , i y_{f, i} yf,i 为真实值, y ^ f , i ∣ θ E M A \hat{y}_{f, i}|_{\theta^{EMA}} y^f,iθEMA 为教师网络的预测值, p f , i p_{f, i} pf,i 为第 f 帧的第 i 个点

😿尽管 mean teacher 对未标注点进行监督,但由于教师网络性能(performance)的影响,其获取到的信息仍是有限的。即使教师网络正确预测了一个点的标签,但由于软伪标签(soft pseudo-labeling)本身的原因,其他类标签的置信度仍会影响学生网络的输出

Class-range-balanced Self-training (CRB-ST)

😸为了应对上面所说注入的不确定性并更直接地利用未标注点预测的置信度,论文扩展了标注数据集并使用了 self-training。论文通过将 self-training 与 mean teacher 一起引入,目的是保持 mean teacher 对不确定预测的软伪标签指导(guidance),同时强化某些预测的伪标签。通过使用教师网络中预测出的最大置信度那一类,可为未标注的点生成一组目标标签 L L L
在这里插入图片描述
😸由于激光雷达传感器本身的性质,局部点密度随光束半径的变化而变化,稀疏度随距离的增加而增加。这导致伪标签主要从密度较大的区域采样,其估计置信度往往较高。为了减少伪标签生成中的这种问题,论文提出了一种修正的 self-training 方案并与类范围平衡( CRB) 组合使用。论文首先粗略地将横平面划分为以 ego-vehicle 为中心宽度为 B 的 R 个环,每个环点都包含在一定距离范围内的点,从这些点我们可以伪标(pseudo-label)出每个类别的全局最高置信度预测。这确保我们获得可靠的标签,同时在不同的范围和所有类中按比例分布它们。其损失函数如下:

min ⁡ θ , y ^ ∑ f = 1 F ∑ i = 1 ∣ P f ∣ [ G i , f − ∑ c = 1 C ∑ r = 1 R F i , f , c , r ] F i , f , c , r = { ( l o g ( y ^ f , i ( c ) ∣ θ E M A ) + k ( c , r ) ) y ^ f , i ( c ) , r = ⌊ ∥ ( p x , y ) f , i ∥ / B ⌋ 0 , o t h e r w i s e \begin{aligned} &\min_{\theta, \hat{y}}\sum_{f=1}^{F}\sum_{i=1}^{|P_f|} [G_{i, f} - \sum_{c=1}^C \sum_{r=1}^R F_{i, f, c, r}] \\ & F_{i, f, c, r} = \begin{cases} (log(\hat{y}_{f, i}^{(c)}|_{\theta^{EMA}})+k^{(c, r)})\hat{y}_{f, i}^{(c)}, \quad &r = \lfloor \parallel(p_{x, y})_{f, i} \parallel/B \rfloor \\ 0, & otherwise\end{cases} \end{aligned} θ,y^minf=1Fi=1Pf[Gi,fc=1Cr=1RFi,f,c,r]Fi,f,c,r={(log(y^f,i(c)θEMA)+k(c,r))y^f,i(c),0,r=(px,y)f,i/Botherwise

✍️其中, k ( c , r ) k^{(c, r)} k(c,r) 是类环(class-annulus)配对的负对数阈值(negative log-threshold), R R R 为环的个数

😸为了求解非线性整数优化(nonlinear integer optimization)问题,论文采用了下面的求解器
y ^ f , i ( c ) ∗ = { 1 , i f c = a r g m a x y ^ f , i ∣ θ E M A , y ^ f , i ∣ θ > e x p ( − k ( c , r ) ) w i t h   r = ⌊ ∥ ( p x , y ) f , i ∥ / B ⌋ 0 , o t h e r w i s e \hat{y}_{f, i}^{(c)*} = \begin{cases} 1, if &c= argmax\hat{y}_{f, i}|_{\theta^{EMA}},\\ &\hat{y}_{f, i}|_{\theta} \gt exp(-k^{(c, r)}) \\ &with \ r = \lfloor \parallel (p_{x, y})_{f, i} \parallel / B \rfloor\\ 0, &otherwise\end{cases} y^f,i(c)= 1,if0,c=argmaxy^f,iθEMA,y^f,iθ>exp(k(c,r))with r=(px,y)f,i/Botherwise

Pyramid Local Semantic-context (PLS)

😸为了保证更高质量的伪标记,论文进一步引入一个新的描述子(descriptor),其利用可用的涂鸦(scribbles)来丰富(enrich)初始点的特征。

🙀论文发现类标签在 3D 空间中存在空间平滑(spatial smoothness)约束和语义模式(semantic pattern)约束,空间平滑约束指空间中的一个点可能至少与其相邻的一个点具有相同的类标签,而语义模式约束指支配类之间空间关系的一套复杂的高级规则(high-level rules)。因此,论文认为可以使用局部语义先验(local semantic prior)作为丰富的点描述子(rich point descriptor)来封装空间平滑约束和语义模式约束,且提出在缩放分辨率(scaling resolutions)下使用局部语义上下文(semantic-context)来减少标注点和未标注点(labeled-unlabeled point)之间传播信息的歧义并提高生成伪标签的质量。
在这里插入图片描述

😸论文最初将空间离散为粗略的体素(coarse voxels),这一步可避免过度描述(over-descriptive)的特征导致网络在涂鸦标注下过拟合,从而使其泛化能力和理解有意义的几何关系的能力更强。为了在不同分辨率下符合激光雷达传感器的固有点分布,我们在柱坐标系中使用了多种尺寸的 bins,对于每个 bin b i b_i bi 再计算一个粗略的直方图,然后再将这些 normalized 直方图拼接在一起(如上面 Figure 6 所示),其计算公式如下:
h i = [ h i ( 1 ) , ⋯   , h i ( C ) ] ∈ R C h i ( c ) = # { y j = c ∀ j ∣ p j ∈ b i } P L S = [ h i 1 / m a x ( h i 1 ) , ⋯   , h i s / m a x ( h i s ) ] ∈ R s C \begin{aligned} \pmb{h}_i &= [h_i^{(1)}, \cdots, h_i^{(C)}] \in R^C \\ h_i^{(c)} &= \#\{y_j = c \forall j | p_j \in b_i \} \\ \pmb{PLS} &= [\pmb{h}_i^1/max(\pmb{h}_i^1), \cdots, \pmb{h}_i^s/max(\pmb{h}_i^s)] \in R^{sC} \end{aligned} hhihi(c)PLSPLS=[hi(1),,hi(C)]RC=#{yj=cjpjbi}=[hhi1/max(hhi1),,hhis/max(hhis)]RsC

✍️其中, h i \pmb{h}_i hhi 是某一分辨率下所有直方图拼接在一起的结果, h i ( c ) h_i^{(c)} hi(c) 是某一类的直方图, P L S PLS PLS 是所有分辨率下所有 normalized 直方图拼接一起的结果, s s s 指分辨率?

✍️将 P L S PLS PLS 添加到输入的特征中,并将输入的激光雷达点云重新定义为点的增广集 P a u g = { p ∣ p = ( x , y , z , I , P L S ) ∈ R s C } P_{aug} = \{p|p=(x, y, z, I, PLS) \in R^{sC}\} Paug={pp=(x,y,z,I,PLS)RsC} x , y , z x, y, z x,y,z 对应点 3D 坐标,而 I I I反射强度。在训练时,使用 P a u g P_{aug} Paug 来代替原先数据集可在 pseudo-labeling 阶段生成更高质量的伪标签

😻论文:https://arxiv.org/pdf/2203.08537.pdf

😻代码:https://github.com/ouenal/scribblekitti

📖补充深度学习(七十四)半监督Mean teachers半监督学习之self-training

  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Temporal Ensembling是一种半监督学习方法,它使用了时间上的一致性来提高模型的性能。该方法通过对未标记数据进行预测,并将预测结果与之前的预测结果进行平均,从而获得更加稳定和准确的预测结果。同时,该方法还使用了一个噪声注入技术来增加模型的鲁棒性。该方法已经在图像分类、语音识别等领域取得了很好的效果。 ### 回答2: Temporal Ensembling是一种半监督学习方法。它主要通过使用同一批数据的多个副本,在单批数据上进行迭代学习来提高预测模型的准确性。这种方法能够很好地利用已有数据中的潜在信息,同时也能避免因缺乏大量标注数据而损失准确性的问题。 Temporal Ensembling的核心思想是使用模型的历史预测结果来生成新的虚拟标签。在训练期间,模型不断地更新,同时不断生成新的“标注”,并将这些新的“标注”与原始标注数据一起训练。这样,模型可以从大量带有“标注”的数据中学习并逐渐提高其准确性。 Temporal Ensembling方法在许多学习任务中都展现出优良的性能,比如图像分类、物体识别、图像分割、语音识别等。其中,与其他半监督学习方法相比,Temporal Ensembling在半监督图像分类中的性能最为出色。 尽管Temporal Ensembling的性能非常出色,但是其中的一些问题仍需要解决。 首先,这种方法需要大量的GPU计算力和存储空间,并且需要复杂的算法设计。其次,由于该方法是基于生成虚拟标签的,因此,如果模型在未来预测错误而不正确地生成了虚拟标签,那么可能会产生负面影响。 总之,Temporal Ensembling是一种有效的半监督学习方法,其取得的结果显示出高水平的准确性。与其他方法相比,Temporal Ensembling具有更好的稳健性及效能。也因此,它在深度学习领域中被广泛应用。 ### 回答3: Temporal Ensembling是一种半监督学习技术,可以用于训练深度神经网络。该技术旨在利用未标记的数据来改善模型的泛化能力。在传统的监督学习中,我们需要分类器预测每个样本的标签,并将其与真实标签进行比较以计算损失函数。然而,在许多现实世界的场景中,标记数据的数量通常是有限的,这使得监督学习变得更加困难和昂贵。相反,在半监督学习中,我们将未标记的数据与标记数据结合在一起进行训练。 Temporal Ensembling的实现是基于一个假设,即相似的输入应该具有相似的潜在表示形式。具体来说,该技术通过在连续训练周期中收集了单次训练中的模型预测,通过将这些预测结果整合成一个移动平均版本来构建模型共识。这可以看作是把模型的预测提供给下一个周期的训练,让模型逐渐整合起来,在连续的训练周期中收集了对训练数据更准确的表示。在训练过程中,我们不仅使用真实标签来计算损失函数,还将平均预测意味着的交叉熵添加到损失函数中。这使得模型学习时能够尽可能地匹配模型共识中的数据。 虽然在许多情况下,半监督学习可以增加模型学习任务的效果,但它依赖于许多因素,包括未标记样本的数量、分布和标记样本之间的相似性。使用Temporal Ensembling时,需要做好降噪处理,适当选择数据能够真正提高该技术效果。此外,需要注意的是,Temporal Ensembling只能在没有过度拟合数据集时才能有效,因为此技术基于模型共识构建。在实际应用中,可以将Temporal Ensembling与其他半监督学习技术结合使用,以提高模型性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值