使用语义分割的级联场景流预测（Cascaded Scene Flow Prediction using Semantic Segmentation）

最新推荐文章于 2024-06-09 09:17:56 发布

XDhughie

最新推荐文章于 2024-06-09 09:17:56 发布

阅读量1.7k

点赞数 1

分类专栏： flow 文章标签： flow

flow 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

使用语义分割的级联场景流预测

（Cascaded Scene Flow Prediction using Semantic Segmentation）

Zhile Ren // Deqing Sun // Jan Kautz // Erik B. Sudderth

摘要

给定来自一对立体相机的两个连续帧，3D场景流方法同时估计观察场景的3D几何和运动。许多现有方法使用超像素进行正则化，但可以预测刚性移动物体内的不一致形状和运动。我们假设场景由在静态背景前严格移动的前景对象组成，并使用语义提示来产生像素精确的场景流估计。我们的级联分类框架通过迭代精炼语义分割掩模，立体对应，3D刚性运动估计和光流场来精确地建模3D场景。我们在具有挑战性的KITTI自动驾驶基准测试中评估我们的方法，并表明，分割车辆运动的计算达到了最好的性能。

1.简介

场景流[28]是密集的3D几何和动态场景的运动。给定由校准的相机在两个（或更多个）帧处捕获的图像，可以通过将2D运动（光流）估计投影到通过双目立体匹配推断的深度图上来恢复3D运动场.场景流算法有许多应用，从驾驶员辅助[21]到3D动作捕捉[9]。

光流估计[27,2]和双目立体重建[25]的问题已经被单独广泛研究。最近的场景流方法[18,34,30]利用3D几何线索来改善立体声和流量估计，如在具有挑战性的KITTI场景流基准[20]的道路场景中评估的那样。最先进的场景流算法[31,20]假设超像素大致是平面的经历严格的3D运动。然后，条件随机场为3D运动估计提供时间和空间正则化。这些方法通常在场景的背景区域上表现良好，但对于移动前景对象的准确性要小得多。

估计快速移动的前景物体的几何形状是困难的，尤其是在运动边界附近。车辆特别具有挑战性，因为涂漆表面具有很少的纹理，挡风玻璃是透明的，并且反射违反了亮度恒定性假设下的立体声和流动可能性。然而，准确估计车辆几何形状和运动对于自动驾驶应用是至关重要的。为了提高准确性，设计分别模拟物体和背景区域运动的模型是很自然的[23,20]。

最近几种用于估计光流[1,13,26,23]的方法已经使用语义提示来提高准确性。虽然使用纯粹的自下而上的运动分割具有挑战性，但语义分割[36,5]的最新进展使得可以在给定单个RGB图像的情况下准确地分割流量。给定分段的对象边界，然后可以使用对象特定的3D运动模型来提高光流方法的准确性。

在本文中，我们使用实例级语义分割[5]和分段刚性场景流估计[30]作为输入，并通过级联的条件随机场（CRF）进行整合[16]。我们定义了与密集分割掩模，立体深度图，光流场和前景对象的刚性3D运动估计相关的像素级CRF。由于这些变量的高维度，我们使用级联分类模型[11]迭代地对它们进行优化，其中级联的每个阶段都通过结构SVM学习算法进行调整[14]。我们使用先前的场景流注释[20]来评估具有挑战性的KITTI自动驾驶基准[10]，并改进两帧场景流量估计中的最新技术。我们的工作证明了语义线索在恢复三维场景的几何和运动中的重要性。

2用于场景流估计的相关方法

Vedula等。 [28]首先将场景流定义为观察场景中所有点的密集3D运动，并使用来自若干校准摄像机的2D光流场恢复基于体素的流量估计。 Huguet和Devernay [12]然后提出了变分方法并联合求解立体声和光流，而Wedel等人。 [33]解决了立体声和流动问题的效率。这些经典算法仅比现代的，最先进的立体声和光流方法略有改进。

尽管场景流算法需要比标准光流或立体重建方法更多的输入图像，但由于输出视差和运动场的高维度，任务仍然具有挑战性。为了减少解决方案空间，Vogel等人。 [30]引入了分段刚性场景流（PRSF）模型，并使用超像素来约束场景流估计。他们第一次表明，在具有挑战性的KITTI数据集中，场景流动方法可以大大优于立体声和光流方法[10]。在后续工作[31]中，他们将其制定扩展到多个框架并提高了准确性。但是，由于PRSF模型依赖于自下而上的超像素分割提示，因此它倾向于过度分割诸如汽车之类的前景对象。过度分割的部分被分配独立的运动模型，因此无法有效地共享全局信息。

受到Vogel等人成功的启发。 [30]，Menze和Geiger [20]使用动态前景对象注释了一个新的KITTI数据集，用于场景流评估。他们提出了一种物体场景流（OSF）算法，该算法将场景分割成独立的运动区域，并鼓励每个区域内的超像素具有相似的3D运动。虽然OSF的性能在基线上得到了改善，但它们模型中的“对象”被假设为平面并通过自下而上的运动估计进行初始化，因此物理对象通常被过度分割。 OSF方法所需的推理时间也比大多数竞争方法长得多。

卷积神经网络（CNN）用于高级视觉任务的成功推动了基于CNN的低级视觉回归方法。 Dosovitskiy等人。 [6]引入了一种称为FlowNet的去噪自动编码器网络，用于估算光流。梅耶等人。 [19]使用大型合成数据集将FlowNet扩展到视差和场景流估计。虽然CNN模型能够快速生成场景流预测，但在合成数据上训练的网络与现实世界的KITTI场景流基准[20]中的最新方法并不具有竞争力。

一些相关的工作将自动运动分割与光流预测相结合[23]，但假设物体和摄像机的运动之间存在很大差异，并且需要多个输入帧。利用CNN最近成功进行语义分割[5,36]，一些论文[1,13,26]已经表明语义线索可以改善光流估计。这些方法将场景分解为若干对象类别，并应用类别特定的光流模型。在本文中，我们提出了语义分割，场景几何和对象运动的连贯模型。我们使用级联预测框架[11]来有效地解决这个高维推理任务。我们在具有挑战性的KITTI数据集[20]上评估我们的算法，并表明使用语义线索可以获得最先进的场景流估计。
这里写图片描述

3.对语义场景流建模

给定两个连续帧I，J及其对应的立体图像对I’，J’，我们的目标是估计参考帧中每个像素的分割掩模，立体差异和光流(图1)。令 $p_i = (d_i^{(1)},s_i^{(1)},m_i,f_i)$ 表示与参考帧中的像素i相关联的变量，其中 $d_i^{(1)}∈R+$ 是其视差， $s_i^{(1)}∈\{0,1,.... \}$ 是一个语义标签（0是背景，正整数是前景对象实例）， $m_i∈SE(3)$ 是它的3D刚性运动(平移和旋转)， $f _i = [u_i，v_i]$ 是它的光流。我们通过 $q_i=(d_i^{(2)},s_i^{(2)})$ 对第二帧中的每个像素表示视差和语义分割。我们仅使用两个帧来估计场景流，因此不需要在第二帧中明确地模拟运动。

现有的场景流算法在超像素级别进行预测，而无需对场景的语义内容进行明确建模[20,31]。因此，每个语义对象内的预测可能是嘈杂的或不一致的。在这项工作中，我们假设场景包含严格移动静态背景的前景对象（车辆，用于我们的自动驾驶应用程序）。给定一些前景对象的准确语义分割，该段内像素的几何形状应该在空间上和时间上一致，并且光流应该与下面的3D刚性运动一致。

由于场景流问题的高维度，我们使用级联的判别模型[11]来改进我们的估计，通过结构SVM [14]学习参数。级联的每个阶段都对一个场景变量进行有针对性的改进，隐含地考虑了当前其他场景变量估计的不确定性。我们使用实例级分割算法 [5]初始化我们的语义分割S，使用PRSF方法[31]初始化我们的差异D和光流场F.我们接下来讨论他们的级联改进。

3.1细化语义分割

在具有阴影和反射的区域中，初始单帧分割是不可靠的。然而，给定立体声输入，我们的深度估计提供了改善分割的强大线索。因此，对于每个分段实例，我们在其封闭边界框 $B_i$ 中的像素上定义CRF。我们寻求在给定初始噪声分割的情况下估计前景分割ŝ。

我们的数据项鼓励推断的分割s接近初始分割ŝ。KITTI场景流数据集[20]通过对齐近似CAD模型生成“地面实况”分割，并且这些注释在对象边界处通常是不准确的，因此违反了我们的假设，例如前景和背景对象通常应该具有不同的颜色和几何。增加鲁棒性，我们通过计算像素i与原始分割边界的符号距离并使用sigmoid函数将这些距离映射到[0,1]来定义特征，用 $\phi_{dist}(i, ŝ)$ 表示。然后，我们的CRF模型的数据能量:

$E_{seg}^{data}(S) = \sum_{i\in B_i}{[\lambda_1+\lambda_2\phi_{dist}(i, ŝ)]\delta(s_i=0, ŝ_1=1)+[\lambda_3+\lambda_4\phi_{dist}(i, ŝ)]\delta(s_i=1, ŝ_1=0)}. (1)$

我们展示了图2中符号距离特征 $\phi_{dist}(i, ŝ)$ 的优点。通过允许CRF降低ŝ接近边界的置信度，此功能允许其他基于图像的线索提高分割精度。
为了允许空间正则化，我们将边E添加到我们的CRF，将每个像素连接到其8个空间邻域：

$E_{seg}^{space}(S) = \sum_{(i,j)\in \varepsilon}{[\lambda_5+\lambda_6ρ_{img}(I_i, I_j)+\lambda_7ρ_{disp}(d_i,d_j)]\delta(s_i\neq s_j)}. (2)$

这里， $ρ_{img}(I_i,I_j)=exp\{-\frac{\mid\mid I_i-I_j\mid\mid}{\sigma_{img}}\}$ 测量RGB颜色相似度，并且 $ρ_{disp}(d_i,d_j)=exp\{-\frac{\mid d_i-d_j\mid}{\sigma_{disp}}\}$ 测量当前（近似）视差估计的相似性。

要学习参数λ= [λ1，…。。，λ7]，我们使用一个结构化的SVM [14]，其损耗等于边界框 $B_i$ [8]内的平均标签误差.使用验证数据调整特征带宽 $σ_{img}$ ， $σ_{disp}$ .为了对 $E_{seg}^{data}+E_{seg}^{space}$ 进行推理，我们使用树重加信念传播的有效消息传递实现[32,15].因为像素标签是二进制的，推理花费不到0.5秒。.为了将我们的CRF模型应用于场景流问题，我们独立估计每个实例和帧的分段。
这里写图片描述

3.2场景几何的估计

给定视差图D和相机校准参数，可以构建场景的3D点云表示。标准立体声估计算法忽略语义线索，并且通常在阴影，反射或透明的表面上表现不佳。如图3所示，对于自动驾驶应用，车辆挡风玻璃的深度估计特别差。由于不准确的深度估计导致较差的运动和流量估计，我们设计了一个模型，该模型在推断的分割掩模内强制实现深度的局部平滑。

我们定义了先前由我们的级联模型推断的每个语义段内的像素的CRF模型。对于具有视差假设 $d_i$ 的左相机中的每个像素i，我们将右相机中的对应像素表示为 $P_d(i,d_i)$ 。数据项被定义为惩罚像素i和 $P_d(i,d_i)$ 之间的平滑普查变换的差异：

$E_{geom}^{data}(D)=\Sigma_{\{i\mid s_i=s\}}\rho_{CSAD}(I_i,I_{P_d(i,d_i)}')(3)$

这里写图片描述
这里， $ρ_{CSAD}(.,.)$ 是不同图像中匹配像素的CSAD成本[29]。 CSAD差异是人口普查变换[35]的凸近似，它为许多数据集提供了可靠的像素对应[29]。

我们通过惩罚相邻像素深度的绝对差异来鼓励分段平滑深度图：
$E_{geom}^{space}(D)=\tau_1\Sigma_{(i,j)\in\varepsilon}\rho_{depth}(d_i,d_j)(4)$
这里， $\rho_{depth}(d_i,d_j)=\mid\frac{C}{d_i}-\frac{C}{d_j}\mid$ ,C是特定于摄像机的常数，它将视差d转换为深度 $\frac{C}{d}$ . 我们在深度域中实施一致性，因为当物体靠近或远离相机时，视差的比例会发生变化。

如果天真地应用于完整图像，简单的CRF模型在对象边界处通常是不准确的[30]。然而，如图3所示，尽管我们的立体CRF使用标准特征，但它在解决前景物体的挑战区域中的不确定性方面是有效的，并且它能够更好地捕获单个物体内的深度变化。.此外，因为我们的成对距离仅取决于深度差的绝对值，所以距离变换[7]可以用于最小化 $E_{seg}^{data}+E_{seg}^{space}$ 的有效推断。在平均值上，在200×200区域中进行推理需要不到5秒来进行推理。差异候选人。我们独立地改变每个帧的差异。

3.3三维运动的估计

如果每个对象实例的分割掩模和视差估计是完美的，我们可以将3D刚性运动应用于每个分段的3D点云，并投射回图像平面以恢复2D光流。我们让 $(x_i.y_i)$ 表示以这种方式构造的运动流。虽然我们不完美的几何估计将导致运动流与真实光流 $(u_i,v_i)$ 不同，但每个仍然为另一个的估计提供了有价值的线索。

这里写图片描述

对于每个检测到的片段，我们让M=(R，t)表示其在第一帧和第二帧之间的3D相对运动。.运动M具有6个自由度：t是平移向量，并且R=(α，β，γ)是由三个轴对齐的旋转角度表示的旋转。.我们通过最小化来将刚性运动M与当前流场估计（u，v）匹配以下能量函数：

$E_{motion}=v(\rho(\alpha)+\rho(\beta)+\rho(\gamma))+\Sigma_{\{i\mid s_i=s\}}\mid x_i(M,d_i)-u_i\mid+\mid y_i(M,d_i)-v_i\mid(5)$

其中 $x_i(M,d_i),y_i(M,d_i)$ 是根据视差d，3D运动M和相机校准计算的运动流量.我们让 $\rho(a)=\sqrt{a^2+\epsilon^2}$ 成为Charbonnier惩罚，一个类似于 $L_1$ 惩罚的平滑函数，为运动估计任务提供有效的正则化[27].我们使用验证数据设置正则化常数ν，并使用梯度下降来找到M的最佳值。我们在图4中可视化的示例运动流程图。

3.4二维光流估计

来自前一阶段的估计运动流量为光流估计提供了有价值的提示。如图4中的示例所示，运动流量误差主要由不完美的几何形状（或差异）引起。因此，我们寻找流场 $f_i=(u_i,v_i)$ ，使得下一帧中的对应像素 $P_f(i,f_i)$ 与像素i匹配，并且 $f_i$ 不会偏离 $(x i,y i)$ 太多。我们定义了帧1中段s内像素的CRF模型，似然估计:

$E_{flow}^{data}(F)=\Sigma_{\{i\mid s_i=s\}}\rho_{CSAD}(I_i,J_{P_f(i,f_i)})+\eta_1(\mid u_i-x_i\mid+\mid v_i-y_i\mid)(6)$

我们还增加了空间平滑的流场估算：

$E_{flow}^{space}(F)=\Sigma_{(i,j)\in\varepsilon}\eta_2(\mid u_i-u_j\mid+\mid v_i-v_j\mid)(7)$

虽然许多光流方法使用超像素近似来使推理更有效[26]，但可以使用距离变换为我们的像素级CRF有效地实现最大乘积信任传播[7,4]。如图4所示，我们精确的光学流动通过在整个片段中平滑变化来改善初始流动，同时捕获运动流程遗漏的细节。

为了限制我们的光流算法的内存消耗，我们对下采样图像进行推断，然后使用EpicFlow[24]算法进行内插回到完整的图像分辨率。其他最近的光流算法使用了类似的近似[4,1]。

3.5帧外像素的运动估计

我们注意到EpicFlow插值往往会对移动到图像边界之外的像素产生严重错误。在摄像机视场之外，只能使用已知的3D刚体运动来预测光流，因此我们提出了一种流融合CRF [17]，用于组合部分遮挡物体的估计光流和运动流。

特别地，我们使用二进制CRF来确定光流（u i，v i）或运动流（x i，y i）是否提供了对每个像素i的真实流量（U i，V i）的更好估计。直观地，对于边界内像素，我们应该使用匹配成本来比较流场，而边界外像素应该偏向于运动流插值：

$E_{fuse}^{data}(F)=\omega_1(\mid U_i-x_i\mid-\mid V_i-y_i)\delta[P_f(i,f_i)outside]+\Sigma_{f=\{(u,v),(x,y)\}}\Sigma_{\{i\mid s_i=s\}}$

增加邻近像素的空间平滑度：

$E_{fuse}^{space}(F)=\Sigma_{(i,j)\in\varepsilon}\omega_2(\mid U_i-U_i\mid-\mid V_i-V_i)$

我们使用验证数据调整参数ω1，ω2，并使用树重新加权的置信传播来最小化能量[15].我们在图5中示出了融合流估计保留了光流的许多细节，同时使用运动流在闭塞区域中更好地插值.我们还应用我们的流融合技术来更新嘈杂的背景流预测。有关我们最终光流估计的其他示例，请参见图8。
这里写图片描述

4.级联场景流预测

第二节中定义的CRF模型.3贪婪地改进我们场景模型的各个组成部分，通过估计给定所有其他组件当前最佳估计值的每个组件。然而，该方法没有充分利用不同帧处的分割和几何之间的时间关系。此外，当初始光流包含重大误差时，我们的运动流估计将是不准确的。为了更好地捕捉全套几何和时间关系，我们因此使用级联预测的多个阶段[11]来进一步改进我们的场景流估计。我们级联的每个阶段的输入和输出由图6中的有向图总结。

4.1时间分割一致性

我们不是独立地分割每个视频帧，而是在级联的第二阶段，我们使用推断的流场f来鼓励时间一致性帧1中的每个像素i链接到帧2中的匹配像素 $P_f(i,f_i)$ ：

$E_{seg}^{time}(S)=\lambda_8\delta(s_i^{(1)}=0,s_{P_f(i,f_i)}^{(2)}=1)+\lambda_9\delta(s_i^{(1)}=1,s_{P_f(i,f_i)}^{(2)}=0)+\Sigma_i[\lambda_{10}+\lambda_{11}\rho_{CSAD}(I_i,J_{P_f(i,f_i)})]\delta(s_i^{(1)}=s_{P_f(i,f_i)}^{(2)}).$

我们再次使用 $E_{seg}^{data}+E_{seg}^{space}+E_{seg}^{time}$ 上的CRF参数λ的S-SVM学习，并使用树重新加权的置信传播来推断分割。

这里写图片描述

4.2时间几何一致性

与我们的时间分割模型一样，我们也扩展了Sec的立体声CRF。3.2通过我们的光流估计链接的像素深度增加平滑变化：

$E_{geom}^{time}(D)=\tau_2\Sigma_{\{i\mid s_i^{(1)}=s\}}\rho_{depth}(d_i(m_i),d_{P_f()i,f_i})(9)$
这里, $d_i(m_i)$ 表示当应用刚性运动 $m_i$ 时第二帧中的像素i的视差值.使用验证数据学习参数τ，并且还使用有效距离变换[7]来求解 $E_{seg}^{data}+E_{seg}^{space}+E_{seg}^{time}$ 。图7显示的一个例子改进了我们级联的多个阶段产生的差异和流量估计。

4.3从较差的光流初始化中恢复

如果初始噪声光流非常不准确，我们的级联无法恢复正确的物体3D运动，因为我们假设运动流应与光流相匹配。由于我们更新的语义分割掩码 $s^{(1)}$ 和 $s^{(2)}$ 通常非常准确，当将刚性运动M应用于 $s^{(1)}$ 中的像素时，新分割掩模s(M)的形状应该类似于 $s^{(2)}$ 。我们通过在第二帧边界框B上定义的成本来测量这种相似性：

$\frac{1}{\mid B\mid}\Sigma_{i\in B}\alpha S(M)_i*C(S_i^{(2)})+(1-\alpha)C(S(M)_i)*S_i^{(2)}(10)$

这里,C(·)是倒角差分图，α=0.5。该成本函数广泛用于人体姿态估计[3]。如果此成本超过0.5，我们将替换方程式中的第一项.(5)具有这种剪影成本。通过优化方程式中的这个修改目标.(10)使用标准梯度下降，我们可以从坏运动估计中恢复.插图在补充材料中（根据要求).
这里写图片描述

4.4第二帧差异

对于KITTI场景流数据集[20]，第二帧的地面实况视差被表示为相对于第一帧的每像素视差变化。为了预测该评估量，我们将每个像素的估计3D刚性运动应用于第一帧中的估计几何。因此，这些视差估计的准确性很大程度上取决于我们的运动估计算法的性能。

4.5全局能量函数

我们的级联CRF隐含地最小化的全局能量函数可以通过将所有能量项加在一起来构建。我们对变量子集的迭代优化（如图6所示）可以看作是块坐标下降，其中级联预测框架改进了能量函数以反映先前阶段的典型精度。这种级联框架能够实现流量和差异的大状态空间的高效自适应离散化，并且是优化有限数量的推理迭代的原则方法[11]。

XDhughie

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
使用语义分割的级联场景流预测（Cascaded Scene Flow Prediction using Semantic Segmentation）

使用语义分割的级联场景流预测（Cascaded Scene Flow Prediction using Semantic Segmentation）Zhile Ren // Deqing Sun // Jan Kautz // Erik B. Sudderth摘要给定来自一对立体相机的两个连续帧，3D场景流方法同时估计观察场景的3D几何和运动。许多现有方法使用超像素进行正则...
复制链接

扫一扫

专栏目录