【研0日记】23.12.10

现在是早上11点半,实验已经都能跑了,就是不知道结果怎么样,希望能好吧

而且之前那个vpn会断开,学长说电脑连待机都不行,我还以为待机不影响电脑运行,只是熄屏而已,好吧那就设置成永久不睡眠,搞个屏保吧

累了不想看paper,不知道干什么好


下午5点半,太好了终于mAP涨点了,0.235~0.242,但是涨得也不多,也就一点,现在就在242徘徊了。这次json是没有类别信息的,category id = 1,之后就拿带类别的json来监督预训练,不知道效果会不会好一点捏


回顾了这一篇《Distilling DETR with Visual-Linguistic Knowledge for Open-Vocabulary Object Detection》,这篇思想和昨天看的那个有点像,一个base model加上一个distillation

左半边就是普通的deformable detr,只不过原来detr的query是凭空初始化的,这个是image过一个backbone之后,把最高分的N个box选出来,加上positional encoding变成query,也差不多

关键在于右半边的辅助头,旨在把VLM的知识蒸馏到base detector中,凭空初始化同样数量的N个KD query,然后和普通的object query同时送入decoder,共享权值。distillation分成两个部分:(1)semantic knowledge distillation(SKD),是要把VLM的语义信息蒸馏到detector中,每个KD query和VLM visual feature两两做相似度,对应的query和feature(qi和fi)相似度要高,其他的(qi和fj,i≠j)相似度要低;(2)relational knowledge distillation(RKD),是要关注VLM模型中,不同object之间的关系(或者叫差异),比如老虎和猫的距离就比老虎和狗的距离近

所以一对比就发现这个和昨天那个简直一模一样,一个base model,一个distillation,distillation干两件事:一个让base model query(或者叫feature)和clip里面的feature尽可能一致,一个探究clip里面不同feature的关系,把这种关系蒸馏到base model query中

有意思有意思,但是看来蒸馏这个东西就难做了,方法都大差不差,以后可以想一想别的蒸馏方式

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值