CVPR 2020 | 自适应聚合网络AANet：更高效的立体匹配

最新推荐文章于 2024-04-17 09:44:30 发布

PaperWeekly

最新推荐文章于 2024-04-17 09:44:30 发布

阅读量4.5k

点赞数 4

本文链接：https://blog.csdn.net/c9yv2cf9i06k2a9e/article/details/106416324

版权

‍‍

©PaperWeekly 原创 · 作者｜张承灏

单位｜中科院自动化所硕士生

研究方向｜双目深度估计

本文介绍的是中科大团队在 CVPR 2020 上提出的一种高效立体匹配网络——自适应聚合网络 AANet，它由两个模块组成：同尺度聚合模块（ISA）和跨尺度聚合模块（CSA）。AANet 可用来代替基于匹配代价体（cost volume）的 3D 卷积，在加快推理速度的同时保持较高的准确率。

‍

论文标题：AANet: Adaptive Aggregation Network for Efficient Stereo Matching

论文地址：https://arxiv.org/abs/2004.09548v1

开源代码：https://github.com/haofeixu/aanet

在基于深度学习的立体匹配方法中，以 GC-Net [1] 为代表的基于 3D 卷积的方法逐渐成为主流，它是由左右图的特征经过 cancat 得到一个 4D 的 cost volume，之后利用 3D 卷积进行代价聚合得到最终的视差图。

近两年来以此框架为基础的模型在 KITTI 等数据集上成为新的 state-of-the-art，例如 PSMNet [2]，GA-Net [3] 等。

这些方法估计的视差虽然准确率高，但是存在两个参数量和内存占用量高的地方，

AANet 主要用来解决上述两个方面，从而提升深度立体匹配网络的效率。

上图是 AANet 的整体框架图。给定一对双目图像，首先通过共享特征金字塔网络（类似 ResNet+FPN）提取 1/3，1/6 和 1/12 分辨率的特征，之后对三种分辨率的左右图特征分别经过correlation操作，得到多尺度的 3D 匹配代价。

接着经过 6 个堆叠的 AAModules 进行代价聚合，最后利用 soft argmin 操作回归视差图。AANet 可以得到三个尺度的输出，在上采样为原图尺度时还采样了 StereoDRNet [4] 中的精修模块。

这里，AAModules 由 3 个同尺度聚合模块（ISA）和一个跨尺度聚合模块（CSA）组成，下面重点介绍这两个模块。

同尺度聚合指的是只对相同分辨率的 cost volume 进代价聚合，来源于传统立体匹配方法中的局部代价聚合：

其中是在像素点 q 处，视差为 d 的经过聚合的匹配代价，像素点 q 属于p点的邻接像素点；而是在像素点 q 处，视差为 d 的原始匹配代价，是聚合权重。

传统的局部代价聚合不能处理视差不连续的情况，容易造成物体边缘和细微结构的粗大边缘问题（edge-fattening）。尽管基于深度学习的方法能够自动地学习权重 w，但是它们也还是采用固定窗口的规则卷积，并不能自适应地进行特征采样。

为了解决上述问题，作者提出采用基于稀疏点的特征表示能够更高效地进行代价聚合，并借鉴可变形卷积来改进代价聚合，提出了自适应的同尺度聚合模块（ISA）：

其中

关注