【研0日记】23.12.12

dickyy666

已于 2023-12-12 13:56:39 修改

阅读量46

点赞数

分类专栏：读研日记文章标签：学习

于 2023-12-12 13:51:36 首次发布

本文链接：https://blog.csdn.net/m0_56654371/article/details/134946679

版权

读研日记专栏收录该内容

34 篇文章 0 订阅

订阅专栏

不想干活啦，下午出去玩啦

来看看这篇吧《Open-vocabulary Panoptic Segmentation with Embedding Modulation》，这篇是真的让我又爱又恨，爱是感觉还是比较有新意的，整体也比较简单，恨是好多细节根本看不懂，感觉他就是一笔带过什么都不说，再加上没有代码，nmd

首先他和昨天那篇方法上是一样的，base seg model + clip分类头，而且要解决的问题也是一样的，一个是重新训练图文匹配太不值当了，一个是使用现成的clip要如何平衡基础域和泛化域的问题，一个是把每个proposal都送进clip计算量太大了

base model用的是mask2former，得到mask proposal还有最后一层输出的query embedding（也有可能是最后一层query变换得到query embedding），这些query embedding和text embedding匹配，可以理解为roi pooling完之后包含了特定位置上的特征

另一方面，图片过一遍clip的image encoder得到clip feature，这些feature还是全局信息，所以要利用mask proposal通过mask pooling把他们变成局部特征，变成clip提取的、包含局部位置上的特征的clip embedding

所以现在就是，有query embedding（qe）和clip embedding（ce），qe由于是在coco上训练的，所以有很强的pre-defined class的特征，而ce则是包含了整个图片的特征，不管新类旧类。现在问题就变成了怎么把这两者结合起来，就使用text embedding

这个地方就比较有意思了，首先coco80个类的名字过encoder得到一个known embedding（ke），然后每个图片包含的类别名字也过encoder得到unknown embedding（ue），然后把ke和ue做相似度（s），相似度越大说明这张图片包含的类别基本上都是旧类，相似度越小就说明基本上都是新类。所以就用这个相似度去平衡qe和ce，最终的modified embedding（me）就是me = qe + （1 - s）* ce，相似度越大，me包含旧类特征越多，反之包含新类特征越多

完了就用这个me和ue做相似度，对mask分类

这篇这里就跟昨天那篇方法不一样，但感觉思想还是很像的，一个base model，加上一个clip做分类头，昨天那个就纯纯用clip feature去分类，这个就融合了clip feature和base model里面的feature。但是就还是两个问题：（1）clip的图文配对是训练好的，用base feature那肯定和clip的text embedding对不齐，那会不会反而对旧类效果差呢？但是不管怎么说base feature也融合了clip feature，只是占比少；（2）seg task要用局部信息做分类，问题就是怎么从关注全局信息的clip筛选出局部信息，这两篇用的都算是mask pooling的操作，但是这样真的好嘛，mask内的特征就是和text对齐的特征吗？其实我更倾向于利用全局特征重新学习局部特征，不过只是个想法