以往的视频语义分割,总是截取视频中的一帧或几帧,把视频转化成孤立的图处理。本文提出一种方法,可以不增加额外代价地结合视频上下文的信息,辅助网络分割,提高分割表现。
如图所示,红色线条均为第t帧提取出的特征,蓝色为向后偏移δ帧后提出的特征。实线为用于本帧分割的特征,虚线为辅助另一帧进行分割的特征。其中是mask的特征图F和相对位置O拼接而成的,θ是动态过滤器的输出。
对于静态图像分割,即只根据某一帧进行的分割,即图中的Still-image Prediction,本文采用了由文章[1][2]提出的动态条件卷积(dynamic conditional convolutions)。动态过滤器输出的θ决定了模型眼中实例的外观,同时给定一个θ和一幅图,能得到有且只有一个的O与之对应,用于确认众多实例中要分割的实例的位置。
将两者输入一个MaskHead,即可得到分割结果。Mask Head实质为三个卷积层。
对于求t时刻的交叉预测,则是将t时刻的和另一时刻的θ相结合,输入MaksHead得到的。
作者还研究了间隔时间δ对分割效果的影响(如上图),结论是在一定范围内,δ越大,效果越好,但当δ特别大时,效果会下降。个人认为,δ太大会导致时间下降很好理解,因为模型假设的是这两帧中实例的数量和种类没有改变,只有位置变了,但当δ太大时,这显然不可能。此时模型便无法很好的参照上下文信息进行比较。而δ太小时,两幅图像几乎没有差别,此时互相传递的信息也几乎相同,那么模型会退化为将视频转化为孤立的图进行分割的情况,性能当然不好。