中文标题:挖掘自监督单眼深度估计的潜力
——针对基于双目匹配的单目深度估计
创新点
- 数据嫁接,使模型能够学习除垂直图像位置外更有效的线索。
- 首次在没有任何辅助网络的情况下将自蒸馏应用于MDE,并基于面向训练的选择性后处理方法生成更好的伪标记。
- 提出有效的全尺寸模型,增强约束,同时增强编码器的特异性。
数据嫁接
问题
模型推测物体深度靠其所在的垂直位置,文章推测这是由于将整幅图像送入网络,使网络易于学习到深度在垂直方向上的分布。
解决方法
- 双目匹配中,点的匹配均位于同一水平线上,所以可以在竖直方向上对图像进行嫁接,打乱网络对于竖直方向上深度规律的学习,使网络更专注学习区域内语义信息。
全尺度模型
问题
- 传统多尺度深度补全网络为编码器与解码器的结构
- 其中编码器学习抽象及普遍的特征,解码器学习深度估计相关的特征
- 直觉上,对模型施加更多的约束有助于提升性能
解决方法
- 在编码器上添加深度预测模块
- 在编码器预测模块与残差模块之间添加RSU模块[39]
- 使用RSU模块构建Decoder
自蒸馏
思路
- 自蒸馏是为模型产生更多监督信号的方法
- 在全尺寸深度估计过程中,最好的深度预测值不一定产生于最大尺寸
解决方法
- 在所有尺度的深度预测结果中选取最佳值
在像素域寻找深度最佳预测值,形成伪标签。 - 使用为标签作为自监督信号,组成自蒸馏损失函数。
参考文献
[1] Peng R, Wang R, Lai Y, et al. Excavating the potential capacity of self-supervised monocular depth estimation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 15560-15569.
[39] Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R. Zaiane, and Martin Jagersand. U2-Net: Going deeper with nested U-structure for salient object detection. PR, page 107404, 20