论文地址:https://www.aminer.cn/pub/6176201e5244ab9dcbd52fce?f=cs
1、 检测网络
作者采用Cascade Region Proposal Network作为Baseline,采用Focal loss和GIoU loss进行分类和边界框回归。
在训练过程中,作者使用2个独立的SimOTA采样器进行正/负样本采样,其中一个用于分类,另一个用于边界框回归。与此同时作者也放宽了边界框回归采样器的选择标准,以获得更多的正样本。
与分类头和边界框回归头并行增加一个IoU分支,用于预测预测边界框与ground truth之间的IoU。
为了解决目标检测中分类任务和回归任务之间的冲突问题,作者采用了decoupled head算法。
为了节省内存,所有金字塔的头部都有相同的权重。
将decoupled head的第1卷积层替换为DCN。
作者在FPN中添加了CARAFE块,并使用Swin-Transformer作为Backbone。
2、 语义分割
前面使用检测网络预测的边界框来裁剪图像,并将它们的大小调整为512×512。裁剪后的图像路径被输入到分割网络以获得Instance Mask。
作者采用了Upernet架构和Swin-Transformer作为Backbone。
该分割网络是一种二值分割网络,如果像素属于目标,则被预测为前景,否则被预测为背景。
2帧间Mask匹配
作者的想法类似于IoU-tracker。利用预测的光流将前一帧的跟踪器wrapped 到当前帧,然后通过计算被wrapped Mask与detected Mask之间的IoU将跟踪器与当前帧的detected Mask匹配。
用M表示所有帧的 mask proposals,表示帧t的mask proposal。t表示视频长度,F表示光流,其中表示帧t与帧t+1之间的光流。
AMiner,让AI帮你理解科学!https://www.aminer.cn
“相关推荐”对你有帮助么?
-
非常没帮助
-
没帮助
-
一般
-
有帮助
-
非常有帮助
提交