粗读Crossover Learning for Fast Online Video Instance Segmentation

最新推荐文章于 2022-11-12 23:11:15 发布

格里芬阀门工

最新推荐文章于 2022-11-12 23:11:15 发布

阅读量558

点赞数 1

分类专栏：深度学习文章标签：视频语义分割动态条件卷积上下文信息帧间隔分割表现

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42578970/article/details/120750783

版权

深度学习专栏收录该内容

67 篇文章 6 订阅

订阅专栏

以往的视频语义分割，总是截取视频中的一帧或几帧，把视频转化成孤立的图处理。本文提出一种方法，可以不增加额外代价地结合视频上下文的信息，辅助网络分割，提高分割表现。

如图所示，红色线条均为第t帧提取出的特征，蓝色为向后偏移δ帧后提出的特征。实线为用于本帧分割的特征，虚线为辅助另一帧进行分割的特征。其中 $\tilde{F}$ 是mask的特征图F和相对位置O拼接而成的，θ是动态过滤器的输出。

对于静态图像分割，即只根据某一帧进行的分割，即图中的Still-image Prediction，本文采用了由文章[1][2]提出的动态条件卷积（dynamic conditional convolutions）。动态过滤器输出的θ决定了模型眼中实例的外观，同时给定一个θ和一幅图，能得到有且只有一个的O与之对应，用于确认众多实例中要分割的实例的位置。

将两者输入一个MaskHead，即可得到分割结果。Mask Head实质为三个卷积层。

对于求t时刻的交叉预测，则是将t时刻的 $\tilde{F}$ 和另一时刻的θ相结合，输入MaksHead得到的。

作者还研究了间隔时间δ对分割效果的影响（如上图），结论是在一定范围内，δ越大，效果越好，但当δ特别大时，效果会下降。个人认为，δ太大会导致时间下降很好理解，因为模型假设的是这两帧中实例的数量和种类没有改变，只有位置变了，但当δ太大时，这显然不可能。此时模型便无法很好的参照上下文信息进行比较。而δ太小时，两幅图像几乎没有差别，此时互相传递的信息也几乎相同，那么模型会退化为将视频转化为孤立的图进行分割的情况，性能当然不好。

格里芬阀门工

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
粗读Crossover Learning for Fast Online Video Instance Segmentation

以往的视频语义分割，总是截取视频中的一帧或几帧，把视频转化成孤立的图处理。本文提出一种方法，可以不增加额外代价地结合视频上下文的信息，辅助网络分割，提高分割表现。如图所示，红色线条均为第t帧提取出的特征，蓝色为向后偏移δ帧后提出的特征。实线为用于本帧分割的特征，虚线为辅助另一帧进行分割的特征。其中是mask的特征图F和相对位置O拼接而成的，θ是动态过滤器的输出。对于静态图像分割，即只根据某一帧进行的分割，即图中的Still-image Predic...
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。