©PaperWeekly 原创 · 作者|张承灏
单位|中科院自动化所硕士生
研究方向|双目深度估计
本文介绍的是中科大团队在 CVPR 2020 上提出的一种高效立体匹配网络——自适应聚合网络 AANet,它由两个模块组成:同尺度聚合模块(ISA)和跨尺度聚合模块(CSA)。AANet 可用来代替基于匹配代价体(cost volume)的 3D 卷积,在加快推理速度的同时保持较高的准确率。
论文标题:AANet: Adaptive Aggregation Network for Efficient Stereo Matching
论文地址:https://arxiv.org/abs/2004.09548v1
开源代码:https://github.com/haofeixu/aanet
Introduction
在基于深度学习的立体匹配方法中,以 GC-Net [1] 为代表的基于 3D 卷积的方法逐渐成为主流,它是由左右图的特征经过 cancat 得到一个 4D 的 cost volume,之后利用 3D 卷积进行代价聚合得到最终的视差图。
近两年来以此框架为基础的模型在 KITTI 等数据集上成为新的 state-of-the-art,例如 PSMNet [2],GA-Net [3] 等。
这些方法估计的视差虽然准确率高,但是存在两个参数量和内存占用量高的地方,
cost volume 是一个 H×W×D×C 的 4D 张量,具有较高的参数量;
利用 3D 卷积进行代价聚合,计算量较大;
AANet 主要用来解决上述两个方面,从而提升深度立体匹配网络的效率。
Methods
上图是 AANet 的整体框架图。给定一对双目图像,首先通过共享特征金字塔网络(类似 ResNet+FPN)提取 1/3,1/6 和 1/12 分辨率的特征,之后对三种分辨率的左右图特征分别经过correlation操作,得到多尺度的 3D 匹配代价。
接着经过 6 个堆叠的 AAModules 进行代价聚合,最后利用 soft argmin 操作回归视差图。AANet 可以得到三个尺度的输出,在上采样为原图尺度时还采样了 StereoDRNet [4] 中的精修模块。
这里,AAModules 由 3 个同尺度聚合模块(ISA)和一个跨尺度聚合模块(CSA)组成,下面重点介绍这两个模块。
2.1 Adaptive Intra-Scale Aggregation (ISA)
同尺度聚合指的是只对相同分辨率的 cost volume 进代价聚合,来源于传统立体匹配方法中的局部代价聚合:
其中 是在像素点 q 处,视差为 d 的经过聚合的匹配代价,像素点 q 属于p点的邻接像素点;而 是在像素点 q 处,视差为 d 的原始匹配代价, 是聚合权重。
传统的局部代价聚合不能处理视差不连续的情况,容易造成物体边缘和细微结构的粗大边缘问题(edge-fattening)。尽管基于深度学习的方法能够自动地学习权重 w,但是它们也还是采用固定窗口的规则卷积,并不能自适应地进行特征采样。
为了解决上述问题,作者提出采用基于稀疏点的特征表示能够更高效地进行代价聚合,并借鉴可变形卷积来改进代价聚合,提出了自适应的同尺度聚合模块(ISA):
其中