【研0日记】23.12.12

不想干活啦,下午出去玩啦


来看看这篇吧《Open-vocabulary Panoptic Segmentation with Embedding Modulation》,这篇是真的让我又爱又恨,爱是感觉还是比较有新意的,整体也比较简单,恨是好多细节根本看不懂,感觉他就是一笔带过什么都不说,再加上没有代码,nmd

首先他和昨天那篇方法上是一样的,base seg model + clip分类头,而且要解决的问题也是一样的,一个是重新训练图文匹配太不值当了,一个是使用现成的clip要如何平衡基础域和泛化域的问题,一个是把每个proposal都送进clip计算量太大了

base model用的是mask2former,得到mask proposal还有最后一层输出的query embedding(也有可能是最后一层query变换得到query embedding),这些query embedding和text embedding匹配,可以理解为roi pooling完之后包含了特定位置上的特征

另一方面,图片过一遍clip的image encoder得到clip feature,这些feature还是全局信息,所以要利用mask proposal通过mask pooling把他们变成局部特征,变成clip提取的、包含局部位置上的特征的clip embedding

所以现在就是,有query embedding(qe)和clip embedding(ce),qe由于是在coco上训练的,所以有很强的pre-defined class的特征,而ce则是包含了整个图片的特征,不管新类旧类。现在问题就变成了怎么把这两者结合起来,就使用text embedding

这个地方就比较有意思了,首先coco80个类的名字过encoder得到一个known embedding(ke),然后每个图片包含的类别名字也过encoder得到unknown embedding(ue),然后把ke和ue做相似度(s),相似度越大说明这张图片包含的类别基本上都是旧类,相似度越小就说明基本上都是新类。所以就用这个相似度去平衡qe和ce,最终的modified embedding(me)就是me = qe + (1 - s)* ce,相似度越大,me包含旧类特征越多,反之包含新类特征越多

完了就用这个me和ue做相似度,对mask分类

这篇这里就跟昨天那篇方法不一样,但感觉思想还是很像的,一个base model,加上一个clip做分类头,昨天那个就纯纯用clip feature去分类,这个就融合了clip feature和base model里面的feature。但是就还是两个问题:(1)clip的图文配对是训练好的,用base feature那肯定和clip的text embedding对不齐,那会不会反而对旧类效果差呢?但是不管怎么说base feature也融合了clip feature,只是占比少;(2)seg task要用局部信息做分类,问题就是怎么从关注全局信息的clip筛选出局部信息,这两篇用的都算是mask pooling的操作,但是这样真的好嘛,mask内的特征就是和text对齐的特征吗?其实我更倾向于利用全局特征重新学习局部特征,不过只是个想法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值