论文阅读--ViLD

最新推荐文章于 2024-08-25 13:53:53 发布

__如果

最新推荐文章于 2024-08-25 13:53:53 发布

阅读量332

点赞数 2

文章标签：论文阅读人工智能深度学习 CLIP 多模态

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_73202283/article/details/139177127

版权

现在的目标检测数据集，标注的类别都很有限，如图中的base categories，只能检测出toy而不能检测出细分类别，能不能在现有数据集的基础上，不额外打标注，就能直接检测细分物体？

（a）有监督的baseline方法：mask RCNN，第一阶段出一些region proposal，第二阶段根据N个proposal，经过一个detection head得到embeddings，最好通过分类头得到这些bonding box是什么类

（b）ViLD的text部分：利用CLIP处理文本的方法(冻结)得到文本特征，其中文本的标签是基础类也就是base categories，最后图像特征和文本特征点乘算相似度当作logits，back ground是背景类，有专门的网络进行embedding

（c）ViLD的image部分：CLIP已经够好了，所以希望这边图像编码器输出的region embedding能尽可能的跟CLIP输出的图像embedding一致就好了。利用知识蒸馏，把图像编码器得到的bonding box做一些resize操作，扔给CLIP预训练好的image encoder(冻结)，得到图像特征，当作teacher网络，student则是mask RCNN。值得注意的是为了节省开销，ViLD-image中的proposal是预训练好的，可以放在内存中训练时直接用，而text中的proposal是实时出来的

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
论文阅读--ViLD

（b）ViLD的text部分：利用CLIP处理文本的方法(冻结)得到文本特征，其中文本的标签是基础类也就是base categories，最后图像特征和文本特征点乘算相似度当作logits，back ground是背景类，有专门的网络进行embedding。现在的目标检测数据集，标注的类别都很有限，如图中的base categories，只能检测出toy而不能检测出细分类别，能不能在现有数据集的基础上，不额外打标注，就能直接检测细分物体？
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。