AMiner推荐论文：1st Place Solution for the UVO Challenge on Video-based Open-World Segmentation

AMiner学术搜索和科技情报挖掘

于 2021-10-29 17:50:41 发布

阅读量181

点赞数

分类专栏： AMiner AMiner论文推荐文章标签： r语言 uv 目标检测

本文链接：https://blog.csdn.net/AI_Conf/article/details/121039908

版权

AMiner 同时被 2 个专栏收录

729 篇文章 44 订阅

订阅专栏

AMiner论文推荐

515 篇文章 52 订阅

订阅专栏

论文地址：https://www.aminer.cn/pub/6176201e5244ab9dcbd52fce?f=cs
1、检测网络
作者采用Cascade Region Proposal Network作为Baseline，采用Focal loss和GIoU loss进行分类和边界框回归。
在训练过程中，作者使用2个独立的SimOTA采样器进行正/负样本采样，其中一个用于分类，另一个用于边界框回归。与此同时作者也放宽了边界框回归采样器的选择标准，以获得更多的正样本。
与分类头和边界框回归头并行增加一个IoU分支，用于预测预测边界框与ground truth之间的IoU。
为了解决目标检测中分类任务和回归任务之间的冲突问题，作者采用了decoupled head算法。
为了节省内存，所有金字塔的头部都有相同的权重。
将decoupled head的第1卷积层替换为DCN。
作者在FPN中添加了CARAFE块，并使用Swin-Transformer作为Backbone。
2、语义分割
前面使用检测网络预测的边界框来裁剪图像，并将它们的大小调整为512×512。裁剪后的图像路径被输入到分割网络以获得Instance Mask。
作者采用了Upernet架构和Swin-Transformer作为Backbone。
该分割网络是一种二值分割网络，如果像素属于目标，则被预测为前景，否则被预测为背景。
2帧间Mask匹配
作者的想法类似于IoU-tracker。利用预测的光流将前一帧的跟踪器wrapped 到当前帧，然后通过计算被wrapped Mask与detected Mask之间的IoU将跟踪器与当前帧的detected Mask匹配。
用M表示所有帧的 mask proposals，表示帧t的mask proposal。t表示视频长度，F表示光流，其中表示帧t与帧t+1之间的光流。
AMiner,让AI帮你理解科学！https://www.aminer.cn
在这里插入图片描述

AMiner学术搜索和科技情报挖掘

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
AMiner推荐论文：1st Place Solution for the UVO Challenge on Video-based Open-World Segmentation

论文地址：https://www.aminer.cn/pub/6176201e5244ab9dcbd52fce?f=cs1、检测网络作者采用Cascade Region Proposal Network作为Baseline，采用Focal loss和GIoU loss进行分类和边界框回归。在训练过程中，作者使用2个独立的SimOTA采样器进行正/负样本采样，其中一个用于分类，另一个用于边界框回归。与此同时作者也放宽了边界框回归采样器的选择标准，以获得更多的正样本。与分类头和边界框回归头并行增加一个
复制链接

扫一扫