LEAStereo:Hierarchical Neural Architecture Search for Deep Stereo Matching

文中将NAS(神经体系搜索)应用于立体匹配,得到了应用于该领域网络架构的很多有用经验
1.特征网络不需要太深就能获得良好的性能;2.更大的特征体积量可以获得更好的性能(1/3比1/6好);3.1/6分辨率的代价体积似乎适合于良好的性能;4.多尺度融合对于计算匹配代价似乎很重要(即,使用DAG融合多尺度信息);5. 残差对网络很有用,6层特征提取和12层代价匹配层可以在速度和精度之间获得很好的均衡性能。

但是网络的某些策略其实很原始:使用特征网中的特征直接用点积计算成本量,并用赢家通吃(WTA)策略将其投影到视差图上。所以搭建网络时处理研究特定步骤的最优策略,各部分参数和细节的影响也是不容小觑的!

Abstract
NAS(神经体系搜索)算法的基本思想很简单,即,为了使网络能够在一组运算(例如,具有不同滤波器大小的卷积)中进行选择,能够找到更适合于应对问题的最佳体系结构。然而,到目前为止,NAS的成功还没有被立体匹配等低级几何视觉任务所享受。这在一定程度上是因为,由人类设计的最先进的深度立体声匹配网络在规模上已经非常庞大。基于目前可用的主流计算资源,将NAS直接应用于如此庞大的结构在计算上是令人望而却步的。在本文中,我们提出了第一个端到端的分层NAS框架,通过将特定于任务的人类知识融入到神经体系结构搜索框架中,实现了深度立体匹配。具体地说,我们遵循深度立体匹配的黄金标准流水线(即特征提取-特征体构造和密集匹配),对整个流水线的结构进行了联合优化。

Introduction
根据所采用的网络结构,现有的深层立体网络大致可分为两类:一是直接回归法,二是体积法。
直接回归方法是基于从输入图像中直接回归密集的每像素视差,而不考虑立体匹配中的几何约束。在大多数情况下,这是通过使用具有2D卷积的大型U形编解码器网络来推断视差图来实现的。在享受完全数据驱动的方法的同时,最近的研究也对直接回归方法的泛化能力提出了一些担忧。例如,DispNet未能通过随机点立体测试。
体积方法利用半全局匹配的概念,并通过级联来自每个视差偏移的特征来构建4D特征体积。为此,体积法通常使用两个构件,即所谓的I.特征网和II.匹配网。顾名思义,特征网从输入图像中提取特征,匹配网通过三维卷积从4D特征体中计算匹配代价。特征网络和匹配网络的不同设计形成了体积网络的变体。尽管已经取得了成功,但在深度立体匹配中,设计一个良好的体积方法体系结构仍然是一个悬而未决的问题。
NAS需要搜索一组庞大的可能体系结构来挑选网络组件(例如,某一层中卷积的过滤器大小)。这需要很大的计算负荷(早期版本的NAS算法需要数千个GPU小时才能在CIFAR数据集上找到架构)。除此之外,体积方法的本质是非常耗用内存的。例如,中的体积网络每批需要6到8G的GPU内存用于训练!因此,由于计算资源需求的爆炸性增长,端到端搜索体积网络的体系结构一直被认为是令人望而却步的。
在本文中,我们利用基于体积方法的立体匹配管道,允许网络自动为特征网和匹配网选择最优的结构。不同于以往只有一个编码器/编解码器结构的NAS算法,我们的算法使我们能够搜索两个网络的结构、特征映射的大小、特征体积的大小和输出视差的大小。与仅搜索小区级结构的AutoDispNet不同,我们允许网络搜索小区级结构和网络级结构,例如小区的排列。综上所述,我们将几何知识融入到神经结构搜索中,实现了第一个端到端的层次式深度立体匹配NAS框架。我们不仅避免了在搜索架构时对计算资源的爆炸性需求,而且与在非常大的搜索空间中简单地搜索架构相比,获得了更好的性能。
视差图使用soft-argmmin操作从代价体积投影获得。
视差图使用soft-argmmin操作从代价体积投影获得。

Method
受益于人类几十年来在立体匹配方面的知识,以及之前在架构搜索和设计方面以先例形式成功的手工设计。通过在搜索空间设计中利用特定于任务的人类知识,我们不仅避免了在高分辨率密集预测任务中搜索架构时对计算资源的爆炸性需求,而且与在非常大的搜索空间中质朴地搜索架构相比,获得了更高的精确度。

Task-specific Architecture Search Space
受用于语义分割的Auto-DeepLab[18]的启发,我们提出了一个两级分层搜索,它允许我们识别细胞级和网络级结构。直接从语义分割扩展想法可能不一定会导致立体匹配的可行解决方案。一个完全由数据驱动的U型编解码器网络通常很难训练,即使在NAS的帮助下回归视差图也是如此。基于体积的立体匹配方法提供了更快的收敛速度和更好的性能,因为它们的管道pipeline利用了感应偏差(即网络设计中的人类知识)。具体地说,体积解决方案首先在每个像素(基于3D几何的概念)获得所有可能的视差级别的匹配成本,然后使用它来生成视差图(例如,通过使用软argmin操作)。这里的一个明显缺点是由此产生的网络规模过大。这使得在NAS框架中使用体积解决方案非常困难(如果不是不可能的话)。

Cell Level Search Space
在这项工作中,我们将立体匹配的几何知识嵌入到我们的网络结构搜索中。我们的网络由四个主要部分组成:提取局部图像特征的2D特征网,4D特征体,从串联特征中计算和聚合匹配代价的3D匹配网,以及将计算出的代价体投影到视差图的软argmin层。由于只有特征网和匹配网涉及可训练参数,因此我们利用NAS技术搜索这两个子网络。

Cell Level Search Space
a cell被定义为NAS中的核心可搜索单元。我们将该单元定义为具有N个节点的全连通有向无环图(DAG)。我们的单元格包含两个输入节点,一个输出节点和三个中间节点。
在这里插入图片描述
中间节点的描述,包括候选操作和softmax。
在这里插入图片描述

在搜索阶段结束时,通过在节点之间选择最可能的操作来选择离散体系结构,argmax。

我们允许网络为每个小区选择不同的分辨率。为了处理相邻单元格的分辨率差异,我们首先检查它们的分辨率,如果存在不匹配,则通过上采样或下采样进行相应的调整。

Residual Cell
受ResNet中剩余连接的启发,我们提出在形成输出时也包括单元的输入。其中剩余的连接单元用红线突出显示。这允许网络在直接映射之上学习残差映射。

Candidate Operation Selection.
特征网和匹配网的候选操作因其功能不同而不同。
特征网的候选算子集包括OF = {“3×3 ,2D卷积”、“跳过连接”}。同样,我们发现从匹配网络的候选集中移除一些常用的操作不会损害设计。因此,我们只包括匹配网络的以下操作,OM = {“3×3×3×3 ,3D卷积”、“跳过连接”}。

Network Level Search Space
将网络级搜索空间定义为单元的排列,它控制单元之间的特征维数和信息流的变化。
目标是在如图3所示的预定义的L层网格中找到一条最佳路径。
在这里插入图片描述

考虑到每个cell中的滤波器数量,我们遵循的是在将特征张量的高度和宽度减半时将数量加倍的通常做法。
在网络级搜索空间,有两个超参数需要设置:I .最小空间分辨率和II卷积层数量。根据经验,我们观察到将最小空间分辨率设置为输入图像的1/24可以在很宽的基准范围内工作,因此我们在这里选择。在此基础上,我们提出了一个四层网格,其下采样速率为{3,2,2,2},导致最小的特征映射为输入大小的1/24(见图3)。与{2,2,2,2,2}相比,向下采样到1/3将消除两次向上采样的需要,我们根据经验观察到了类似的性能。在特征网的开始,我们有一个三层的“茎”结构,它的第一层是一个3 × 3的卷积层,步幅为3,接下来是两层3 × 3的卷积层,步幅为1。
选择LF= 6作为特征网,选择LM= 12作为匹配网,在计算负载和网络性能之间提供了良好的平衡。有趣的是,这比手工制作深度立体匹配网络的一些最新进展要小得多。例如,遗传算法网络使用33个沙漏结构的卷积层来提取特征
类似于寻找节点之间的最佳操作,我们将使用一组搜索参数β来搜索网格,以便在网格中找到最小化损失的路径。

Loss Function and Optimization
在这里插入图片描述
使用smoothl1 loss。
在连续松弛后,我们可以通过双层优化来优化网络的权重w和架构参数α、β。我们分别用α和β参数化细胞结构和网络结构。为了加快搜索过程,我们使用一阶近似。
为了避免过拟合,我们使用两个不相交的训练集trainI和Traini分别进行w和α,β优化。我们对w和α,β进行交替优化。
当优化收敛时,我们通过从每个节点的所有非零操作中保留前2个最强操作来解码离散单元结构,并通过寻找具有最大概率的路径来解码离散网络结构。

Experiments
在这里插入图片描述
最上面的两个图是搜索到的特征网和匹配网的单元结构。底部是搜索到的两个网络的网络级结构。黄点表示预定义的“茎”层,蓝点表示可搜索的单元格。

特征网络用于从立体图像对中提取有特色的特征,而匹配网络则用于从这些特征中计算匹配代价。为了分析和反映每个搜索到的子网的实际行为,我们使用特征网中的特征直接用点积计算成本量,并用赢家通吃(WTA)策略将其投影到视差图上。如图7所示,该策略在正确估计大多数目标的视差方面已经取得了相当好的效果,这表明我们的特征网络正在学习用于立体匹配的区分特征。第三和第四个子图之间的差异(匹配网前后)证明了匹配网在计算和聚合匹配成本方面的贡献,以获得更好的结果。

AutoDispNet的网络设计是一个大型的U-Net结构,试图在像素空间中直接从输入图像中回归视差图。相反,我们的设计得益于特定于任务的物理和感应偏差,即深度立体匹配的标准管道和优化的搜索空间,从而在当前的物理约束下实现了完整的体系结构搜索。

从所发现的体系结构中可以得到几个提示:1.特征网络不需要太深就能获得良好的性能;2.更大的特征体积量可以获得更好的性能(1/3比1/6好);3.1/6分辨率的代价体积似乎适合于良好的性能;4.多尺度融合对于计算匹配代价似乎很重要(即,使用DAG融合多尺度信息)。

  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
HIVT(Hierarchical Vector Transformer for Multi-Agent Motion Prediction)是一种用于多智能体运动预测的分层向量变换器。该模型使用了向量变换器(Vector Transformer)的层级架构,用于对多智能体的运动轨迹进行预测。 HIVT模型旨在解决多智能体之间相互影响和合作的问题。在多智能体系统中,智能体之间的运动和行为往往会相互影响,因此准确预测智能体的运动轨迹变得非常重要。传统的方法往往难以捕捉到智能体之间的复杂相互作用和外部环境的影响,而HIVT模型通过分层向量变换器的架构,可以更好地捕捉到多智能体系统中的相互作用。 HIVT模型首先使用一个全局的向量变换器来处理整个多智能体系统的运动轨迹,以捕捉全局的趋势和相互作用。然后,对于每个智能体,模型使用一个局部的向量变换器来预测其个体的运动轨迹,以考虑个体特定的动态特征和周围智能体的影响。 通过分层向量变换器的架构,HIVT模型能够更好地处理多智能体系统中的动态变化和相互作用,提高了运动轨迹预测的准确性。同时,该模型还可以应用于多个领域,如智能交通、无人机团队协作等。 总而言之,HIVT模型是一种基于分层向量变换器的多智能体运动预测方法,通过捕捉多智能体系统中的相互作用和全局趋势,提高了运动轨迹预测的准确性和适用性。该模型在多个领域具有广泛的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值