1. 概述
使用SFM或者SLAM方法时,其前提假设是所处场景为静态的,也就是其中没有运动的物体。但这样的条件其实在实际中很多时候是不成立的,如道路场景,对此需要一种方法将场景中运动的目标从场景中区分出来。通常情况下会使用如语义分割或是实例分割的形式,抽取场景中固定目标的掩膜,之后从SFM方法中排除出去,从而避免这些运动目标给位姿估计和场景重建带来影响。但是这样的方法存在无法区分真实运动目标的能力,也就是对于属于具备行动能力,如车、人,也会存在静止的情况,一股脑直接从算法中排除出去也不具有合理性。而且语义分割和实例分割需要预先假定可移动目标的类别,不在这些类别中的运动物体是无法被探测到的。
对此,经过一些调研发现无监督视频目标分割(Unsupervised video object segmentation)与所期望的需求由一定关联性,在该类型方法也需要去分析视频数据中的主要运动目标,之后使用mask的形式进行描述,这与期望的效果一致。不过上述无监督视频目标分割在训练的过程中也并不是完全无监督的形式,也需要认为去确定需要分割的mask,这一点上与显著性目标分割有点类似,而运动信息(光流)就显得不是那么至关重要了。不过不管怎么说该类型方法也算是为解决运动目标问题提供一些思考。
此时(03.18.2023)暂就对无监督视频目标分割的一些方法研究,后续对场景中运动目标处理的方法或思路也将在这里进行更新。
03.20.2023更新:
对于运动的物体其属性是不满足相机位姿约束的,也就是在给定的深度值和位姿,经过warp变换之后运动目标的mask与真实图像运动目标的mask是存在