声明:本文为个人观点,如有不同意见,希望评论区指出,共同进步。
关键词:Few-shot ; Tracking ; Unsupervised learning;
UnOS: Unified Unsupervised Optical-flow and Stereo-depth Estimation by Watching Videos
描述问题:对深度图像和光流的预测作为计算机视觉的基础问题之一,有着大量的需求,但本质上都是在进行现实三维场景的重建,三维场景中移动的刚体分割与检测。有没有一种方法能把光流预测和使用深度摄像头获取的电云图像预测结果结合起来,使得这一类问题的解决变得更加有效呢?
为什么:
- 之前最好的方法是基于CNN的优越性能和监督学习的,但是我们知道三维数据的标记是相当费力的,而且现实世界中的场景处理相当的复杂,因此需要提出一种无监督的方法。
- 之前大部分的方法都是把光流的估计和深度立体图像的预测作为两个独立的任务来看,纵然从一些研究成果来看,将两者交叉着使用是一种相对不错的方法。
怎么做:
我们主要通过以上的图来对方法进行说明:
- 作者搞了三个网络的分支,StereoNet用来获取三维立体深度,FlowNet来获取刚体移动的光流变化,而MotionNet则是获取摄像头的位置变化,其中t和s是目标图像和源图像,L和R则左边图像和右边图像。
- 通过左图和右图,分析出了深度图像,同时,通过目标图像到源图的变化,分析出了图像中的刚体。
- 最后将光流分析出的刚体图像和深度图像进行一致性匹配,自然是一致性越高越好,无监督学习有了合理假设自然就能进行下去从而实现特征的抽取。
文章代码:https://github.com/baidu-research/UnDepthflow
SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking
描述问题:目标跟踪面临的最大挑战就是同时要求模型具有强大的稳定性和特征表达能力。稳定性要求模型不会因为物体的移动,光照变化等而损失跟踪目标,而特征表达能力需要将要寻找的目标与背景以及相似目标区分开来。如何调整使得目标跟踪能实现这个目标。
为什么:
- 某种程度上,稳定性和特征表达能力之间会有一定的冲突,具体上稳定性是类内相似度,而特征表达是类间距离,我们需要找到一种方法,进行多级协调。
- 深度特征的抽取在目标跟踪领域被大量的使用,即使我们都知道,深度特征的抽取本质上是一件相当耗时的事情。
怎么做:
- 首先我们观察左侧,可以发现一开始在区域选择的手段上,这个方法和SiamFC是一致的,首先选中图像,然后按照一定的比例对外缩放,接着进行特征的抽取,产生特征图。
- CM部分:产生特征图之后,将特征图进行进一步卷积,产生两个分支,分别用于判别和定位的回归,做法和SiamRPN一致,上方是分数的信号,下方是特征图分割信号,用于实现Bounding-Box获取。
- FM部分:最后,将AlexNet的特征抽出来,上方Template的所有特征和下方ROI边缘处理之后的链接在一起,对于每个信号中心进行二次识别得出分数与bounding-box的信息微调算出来,作为最终的跟踪目标。
- CM部分:增强稳定性。 FM部分:增强特征表达能力。 做法:非平行结构,而是级联结构。