【论文笔记】Learning to Segment Every Thing

这篇博客是对论文'Learning to Segment Every Thing'的解读,探讨了如何通过权重转移(Weight Transfer)从检测分支的参数学习到掩模分支参数的变换,避免独立训练。文章以Mask RCNN为例,详细介绍了模型结构和参数维度,并指出类别专属的语义信息在box和mask分支中起关键作用。作者提出学习一个从检测分支(1024或4096维)到掩模分支(256维)的变换矩阵。
摘要由CSDN通过智能技术生成

Learning to Segment Every Thing解读Learning to Segment Every Thing算法笔记这两篇博客讲的很好了。

前面我们也讲了,模型的参数相当于 embeding vector包含了类别的appearance information。在box和mask 分支中只有最后一层包含category-specific的参数,是类别专属的,原有的mask rcnn里这两路是独立训练学习的,本文不直接学习mask 分支最后一层的参数,而是通过Weight Transfer学习一个从box分支参数到mask 分支参数的变换。前提的insight就是box和mask最后一层包含category-specific的参数,是类别专属的,算是类别语义信息的embeding,是很相关的,可以通过学习从box变换到mask这边来的。

我们以Mask RCNN(ResNet101-FPN)为例,box分支包含分类和回归,分类部分最后一层,每个类别的cls参数vector维度为1024,回归部分是1024x4=4096,mask分支,输出分辨率是28x28,最后一层每个类别的seg参数vector维度为256(从roialign出来是14141024,然后通过4个conv变成1414256,再加一个deconv到2828256,最后一个11的conv得到score map,这个11卷积的参数就是刚说的seg参数,总共参数是25611*#classes,每个类别的参数就是25611)

我们现在就要加个Weight Transfer,将检测分支的参数cls和box变换到seg,θ是class-agnostic(类别无关的),学习过来的。

就是要学习一个从1024或者4095或者1024+4096维向量到256维向量的变换矩阵
w s e g c = T ( w d e t c ; θ ) w_{\mathrm{seg}}^{c}=\mathcal{T}\left(w_{\mathrm{det}}^{c} ; \theta\right) wsegc=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值