粗读Crossover Learning for Fast Online Video Instance Segmentation

        以往的视频语义分割,总是截取视频中的一帧或几帧,把视频转化成孤立的图处理。本文提出一种方法,可以不增加额外代价地结合视频上下文的信息,辅助网络分割,提高分割表现。

        如图所示,红色线条均为第t帧提取出的特征,蓝色为向后偏移δ帧后提出的特征。实线为用于本帧分割的特征,虚线为辅助另一帧进行分割的特征。其中\tilde{F}是mask的特征图F和相对位置O拼接而成的,θ是动态过滤器的输出。

        对于静态图像分割,即只根据某一帧进行的分割,即图中的Still-image Prediction,本文采用了由文章[1][2]提出的动态条件卷积(dynamic conditional convolutions)。动态过滤器输出的θ决定了模型眼中实例的外观,同时给定一个θ和一幅图,能得到有且只有一个的O与之对应,用于确认众多实例中要分割的实例的位置。

        将两者输入一个MaskHead,即可得到分割结果。Mask Head实质为三个卷积层。

        对于求t时刻的交叉预测,则是将t时刻的\tilde{F}和另一时刻的θ相结合,输入MaksHead得到的。

        作者还研究了间隔时间δ对分割效果的影响(如上图),结论是在一定范围内,δ越大,效果越好,但当δ特别大时,效果会下降。个人认为,δ太大会导致时间下降很好理解,因为模型假设的是这两帧中实例的数量和种类没有改变,只有位置变了,但当δ太大时,这显然不可能。此时模型便无法很好的参照上下文信息进行比较。而δ太小时,两幅图像几乎没有差别,此时互相传递的信息也几乎相同,那么模型会退化为将视频转化为孤立的图进行分割的情况,性能当然不好。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值