Stereo 3D卷积类视差生成网络的softargmin回归方法分析

最新推荐文章于 2023-05-24 15:21:58 发布

幼儿园传奇大侠

最新推荐文章于 2023-05-24 15:21:58 发布

阅读量944

点赞数

分类专栏： PSMNet 立体匹配深度学习三维重建文章标签：自动驾驶深度学习

本文链接：https://blog.csdn.net/u013000248/article/details/116721357

版权

PSMNet 同时被 3 个专栏收录

7 篇文章 1 订阅

订阅专栏

深度学习三维重建

6 篇文章 5 订阅

订阅专栏

立体匹配

2 篇文章 0 订阅

订阅专栏

写在前面的话：
这篇小总结本来一年前就该写了，奈何自己懒，一拖再拖。好久没有研究这个课题，也该临时做个收尾。贴一下Middlebury： https://vision.middlebury.edu/stereo/eval3/

神经网络的本质是一个自动的函数拟合器

对于U型视差生成网络，是抽象（编码器）-解析（解码器）结构，而基于3Dcost volume的3D卷积网络则更具备可解释性，其中，最后在视差d方向使用了softargmin用来视差回归。

sotargmin是什么东西呢？

这小伙讲的不错：https://blog.csdn.net/weixin_41405284/article/details/109718795
抄来的公式
首先回忆一下目标识别网络(分类任务)：
卷积+全连接+softmax分类器；最终经过分类器可以得到某图像是某类的概率，而“类”是人工指定的某个变量。
而softargmin则将3d costvalume将每个（x，y）坐标下的回归视差变成了一个分类任务。分类任务为：当前像素在视差方向d，为每一类的概率是xxx。这样，当网络认为某位置89%落到了视差7,那么回归的视差基本就在7附近，视差经过概率*视差加权得到。那么也带来个问题：如果网络认为50%是视差3，50%是视差100，softargmin就会回归到52.5，然而这是个错误的值，也是softargmin的弊端。通常在这种情况下是怼到了强重复纹理或者反光的地方，这种值是不可信的，并且，回归仅仅能回到d个视差精度上，如果视差d为1、2、3、4、5、6.。。它回归50%为3，50%为4，则应当认为视差在3.5是可信的，即：相邻的概率值和很高时，表现为一个强烈的单峰信号，这个视差就是可信的，在其他情况下则是不可信的。Adaptive Unimodal Cost Volume Filtering for Deep Stereo Matching这篇论文很好的讲了这个现象。另外我也有一篇文章：Occlusion Area Removal in Binocular 3D Reconstruction of Train Running Parts https://ieeexplore.ieee.org/document/9337529 也讲了这个现象，可以把视差图中的不可信区域去除。可惜由于时间原因，急于毕业，我不是AAAI，另外吐槽下国内期刊，我把这篇文章投中文被拒。没有人做过的内容（nn错误视差去除），找不到对比对象，因此被拒。别人投了AAAI。当然，我因为时间原因也没有做更深入的操作，其实这里大有可为，有一点积累，荒废了有些可惜。而且这种视差图confidence的过滤，使用常规的图像信号处理就可以做的很好，没必要用NN强行学习回归的。