【研0日记】23.12.10

dickyy666

已于 2023-12-11 15:11:14 修改

阅读量104

点赞数

分类专栏：读研日记文章标签：学习

于 2023-12-10 11:40:39 首次发布

本文链接：https://blog.csdn.net/m0_56654371/article/details/134906066

版权

读研日记专栏收录该内容

34 篇文章 0 订阅

订阅专栏

现在是早上11点半，实验已经都能跑了，就是不知道结果怎么样，希望能好吧

而且之前那个vpn会断开，学长说电脑连待机都不行，我还以为待机不影响电脑运行，只是熄屏而已，好吧那就设置成永久不睡眠，搞个屏保吧

累了不想看paper，不知道干什么好

下午5点半，太好了终于mAP涨点了，0.235~0.242，但是涨得也不多，也就一点，现在就在242徘徊了。这次json是没有类别信息的，category id = 1，之后就拿带类别的json来监督预训练，不知道效果会不会好一点捏

回顾了这一篇《Distilling DETR with Visual-Linguistic Knowledge for Open-Vocabulary Object Detection》，这篇思想和昨天看的那个有点像，一个base model加上一个distillation

左半边就是普通的deformable detr，只不过原来detr的query是凭空初始化的，这个是image过一个backbone之后，把最高分的N个box选出来，加上positional encoding变成query，也差不多

关键在于右半边的辅助头，旨在把VLM的知识蒸馏到base detector中，凭空初始化同样数量的N个KD query，然后和普通的object query同时送入decoder，共享权值。distillation分成两个部分：（1）semantic knowledge distillation（SKD），是要把VLM的语义信息蒸馏到detector中，每个KD query和VLM visual feature两两做相似度，对应的query和feature（qi和fi）相似度要高，其他的（qi和fj，i≠j）相似度要低；（2）relational knowledge distillation（RKD），是要关注VLM模型中，不同object之间的关系（或者叫差异），比如老虎和猫的距离就比老虎和狗的距离近

所以一对比就发现这个和昨天那个简直一模一样，一个base model，一个distillation，distillation干两件事：一个让base model query（或者叫feature）和clip里面的feature尽可能一致，一个探究clip里面不同feature的关系，把这种关系蒸馏到base model query中

有意思有意思，但是看来蒸馏这个东西就难做了，方法都大差不差，以后可以想一想别的蒸馏方式