AMiner推荐论文:1st Place Solution for the UVO Challenge on Video-based Open-World Segmentation

论文地址:https://www.aminer.cn/pub/6176201e5244ab9dcbd52fce?f=cs
1、 检测网络
作者采用Cascade Region Proposal Network作为Baseline,采用Focal loss和GIoU loss进行分类和边界框回归。
在训练过程中,作者使用2个独立的SimOTA采样器进行正/负样本采样,其中一个用于分类,另一个用于边界框回归。与此同时作者也放宽了边界框回归采样器的选择标准,以获得更多的正样本。
与分类头和边界框回归头并行增加一个IoU分支,用于预测预测边界框与ground truth之间的IoU。
为了解决目标检测中分类任务和回归任务之间的冲突问题,作者采用了decoupled head算法。
为了节省内存,所有金字塔的头部都有相同的权重。
将decoupled head的第1卷积层替换为DCN。
作者在FPN中添加了CARAFE块,并使用Swin-Transformer作为Backbone。
2、 语义分割
前面使用检测网络预测的边界框来裁剪图像,并将它们的大小调整为512×512。裁剪后的图像路径被输入到分割网络以获得Instance Mask。
作者采用了Upernet架构和Swin-Transformer作为Backbone。
该分割网络是一种二值分割网络,如果像素属于目标,则被预测为前景,否则被预测为背景。
2帧间Mask匹配
作者的想法类似于IoU-tracker。利用预测的光流将前一帧的跟踪器wrapped 到当前帧,然后通过计算被wrapped Mask与detected Mask之间的IoU将跟踪器与当前帧的detected Mask匹配。
用M表示所有帧的 mask proposals,表示帧t的mask proposal。t表示视频长度,F表示光流,其中表示帧t与帧t+1之间的光流。
AMiner,让AI帮你理解科学!https://www.aminer.cn
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值