Stereo 3D卷积类视差生成网络的softargmin回归方法分析

写在前面的话:
这篇小总结本来一年前就该写了,奈何自己懒,一拖再拖。好久没有研究这个课题,也该临时做个收尾。贴一下Middlebury: https://vision.middlebury.edu/stereo/eval3/

神经网络的本质是一个自动的函数拟合器

对于U型视差生成网络,是抽象(编码器)-解析(解码器)结构,而基于3Dcost volume的3D卷积网络则更具备可解释性,其中,最后在视差d方向使用了softargmin用来视差回归。

sotargmin是什么东西呢?

这小伙讲的不错:https://blog.csdn.net/weixin_41405284/article/details/109718795
抄来的公式
首先回忆一下目标识别网络(分类任务):
卷积+全连接+softmax分类器;最终经过分类器可以得到某图像是某类的概率,而“类”是人工指定的某个变量。
而softargmin则将3d costvalume将每个(x,y)坐标下的回归视差变成了一个分类任务。分类任务为:当前像素在视差方向d,为每一类的概率是xxx。这样,当网络认为某位置89%落到了视差7,那么回归的视差基本就在7附近,视差经过概率*视差加权得到。那么也带来个问题:如果网络认为50%是视差3,50%是视差100,softargmin就会回归到52.5,然而这是个错误的值,也是softargmin的弊端。通常在这种情况下是怼到了强重复纹理或者反光的地方,这种值是不可信的,并且,回归仅仅能回到d个视差精度上,如果视差d为1、2、3、4、5、6.。。它回归50%为3,50%为4,则应当认为视差在3.5是可信的,即:相邻的概率值和很高时,表现为一个强烈的单峰信号,这个视差就是可信的,在其他情况下则是不可信的。Adaptive Unimodal Cost Volume Filtering for Deep Stereo Matching这篇论文很好的讲了这个现象。另外我也有一篇文章:Occlusion Area Removal in Binocular 3D Reconstruction of Train Running Parts https://ieeexplore.ieee.org/document/9337529 也讲了这个现象,可以把视差图中的不可信区域去除。可惜由于时间原因,急于毕业,我不是AAAI,另外吐槽下国内期刊,我把这篇文章投中文被拒。没有人做过的内容(nn错误视差去除),找不到对比对象,因此被拒。别人投了AAAI。当然,我因为时间原因也没有做更深入的操作,其实这里大有可为,有一点积累,荒废了有些可惜。而且这种视差图confidence的过滤,使用常规的图像信号处理就可以做的很好,没必要用NN强行学习回归的。

嗯,就先写这么多吧。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值