论文阅读--ViLD

现在的目标检测数据集,标注的类别都很有限,如图中的base categories,只能检测出toy而不能检测出细分类别,能不能在现有数据集的基础上,不额外打标注,就能直接检测细分物体?

 

(a)有监督的baseline方法:mask RCNN,第一阶段出一些region proposal,第二阶段根据N个proposal,经过一个detection head得到embeddings,最好通过分类头得到这些bonding box是什么类

(b)ViLD的text部分:利用CLIP处理文本的方法(冻结)得到文本特征,其中文本的标签是基础类也就是base categories,最后图像特征和文本特征点乘算相似度当作logits,back ground是背景类,有专门的网络进行embedding

(c)ViLD的image部分:CLIP已经够好了,所以希望这边图像编码器输出的region embedding能尽可能的跟CLIP输出的图像embedding一致就好了。利用知识蒸馏,把图像编码器得到的bonding box做一些resize操作,扔给CLIP预训练好的image encoder(冻结),得到图像特征,当作teacher网络,student则是mask RCNN。值得注意的是为了节省开销,ViLD-image中的proposal是预训练好的,可以放在内存中训练时直接用,而text中的proposal是实时出来的

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值