【论文阅读】DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

阿委困的不能行

已于 2022-10-17 20:02:52 修改

阅读量1.3k

点赞数

文章标签： pytorch 深度学习人工智能论文阅读计算机视觉

于 2022-10-17 20:01:31 首次发布

本文链接：https://blog.csdn.net/rocking_struggling/article/details/127344679

版权

一篇CLIP应用在语义分割上的论文

论文标题：

DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

作者信息：

在这里插入图片描述

代码地址：

https://github.com/raoyongming/DenseCLIP

Abstract

CLIP模型对下游分类任务取得很好的效果，作者通过隐式和显式的利用CLIP中的预训练知识，提出一个密集型预测任务的框架，该框架通用于各种模型和主干网络，并在分割任务上有很好的效果。

Introduction

在这里插入图片描述

（首先讨论了经典的预训练应用范式）把backbone在大规模数据集预训练，然后根据任务接一个detector或则分割的decoder。
CLIP模型也可以通过这种方式进行应用，修改语言模型的输出并应用于分类任务，但是和其预训练任务相似，应用面太窄，不够通用，无法应用于密集型的预测任务。
（作者的贡献）提出了DenseCLIP框架，将CLIP中的原始图像-文本匹配问题转换为像素-文本匹配问题，使用像素-文本score map来明确地指导密集预测模型的学习（图b）。该框架可以应用于任何主干模型。

Approach

在这里插入图片描述

3.1. Preliminaries: Overview of CLIP

CLIP模型扩展应用在密集型任务上有两个难点：
1.首先是密集型预测任务应用backbone的就比较少，有一些应用就是把CLIP中的img encoder直接拿来用，但是忽视了text encoder的重要作用。
2.CLIP本身是分类任务，由于上游对比预训练任务和下游每像素预测任务之间存在巨大差距，将知识从CLIP转移到密集预测更加困难。主要原因还是输入输出的形式不一样。

3.2. Language-Guided Dense Prediction

作者认为除了CLIP中img encoder所表示的全局特征以外，最后一层是能表示 language-compatible feature map。CLIP在应用backbone的时候做了改进，加入了一个attention pooling layer（https://blog.csdn.net/rocking_struggling/article/details/127291295）,在特征 $x_4$ 上应用得到global feature $\overline{x_4}$ ，之后将它们concat输出到多头自注意力层：
在这里插入图片描述
其中 $\overline{z_4}$ 被应用于Img decode的输出，而 ${z_4}$ 被忽略掉了，作者认为：
（1） ${z_4}$ 仍然保留了足够的空间信息，因此可以作为一个特征图。
（2）MHSA对输入元素是类似的，故 ${z_4}$ 应该和 $\overline{z_4}$ 类似。
作者将 ${z_4}$ 和CLIP的text encoder的输出特征 $t$ 做乘法，获得pixel-text score map。
pixel-text score map有两个作用：
（1）直接作为低分辨率的分割结果，引入监督计算辅助分割损失。
（2）和 $x_4$ 的concat输入到Image Deocoder中去，获得分割结果计算损失。

3.3. Context-Aware Prompting

（作者对text encoder部分做的一些改进）
作者认为CLIP中的text prompt: a photo of a [CLS]效果不是很好，尤其是对于分割任务而言。对于[CLS]描述应该越清晰越好，于是作者采用CoOp的思想，生成learnable textual contexts放在[CLS]的前面，输入到text encoder中去：
在这里插入图片qi'zh描述
其中， $p$ 是生成的contexts， $e_k$ 是类别。生成这些 $p$ 叫Vision-to-language prompting，分别叫pre-model prompting和post-model prompting：
在这里插入图片描述

pre-model prompting：建立一个可学习的序列 $q$ ，然后和图像特征 $z$ concat输入到Decoder中去获得text $v_{pre}$ ，把 $v_{pre}$ 替换 $p$ 。
在这里插入图片描述
post-model prompting：把已经text encoder的特征 $t$ 和图像特征 $z$ concat暑促到Decoder中去获得text $v_{post}$ ，并用它更新 $t$ ：

3.4. Instantiations

作者这个框架分别应用在语义分割、检测\实例分割上面，为此还设计了不同的损失函数。
语义分割的辅助损失函数：
在这里插入图片描述
检测\实例分割损失函数：

作者还说可以用任何主干网络替换CLIP中的Image Encoder，因为在text feature的指导下，backbone可以更快更好的学习，表明了DenseCLIP的强通用性。

Experiments

在这里插入图片描述

阿委困的不能行

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
【论文阅读】DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

CLIP模型对下游分类任务取得很好的效果，作者通过隐式和显式的利用CLIP中的预训练知识，提出一个密集型预测任务的框架，该框架通用于各种模型和主干网络，并在分割任务上有很好的效果。
复制链接

扫一扫