清华&MBZUAI&CMU&牛津提出DenseCLIP，用上下文感知的提示进行语言引导密集预测！代码已开源！...

最新推荐文章于 2023-12-06 18:35:27 发布

VIP文章我爱计算机视觉

最新推荐文章于 2023-12-06 18:35:27 发布

阅读量3k

点赞数 1

文章标签：大数据编程语言 python 计算机视觉机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/moxibingdao/article/details/121965279

版权

关注公众号，发现CV技术之美

▊ 写在前面

最近的研究表明，使用对比图像文本对进行大规模的预训练可能是从自然语言监督中学习高质量视觉表示的有前途的方法。得益于更广泛的监督来源，这一新范式在下游分类任务和可迁移性方面展现出了不错的结果。

然而，将从图像-文本对中学习到的知识转移到更复杂的密集预测任务的问题几乎没有被研究 。在这项工作中，作者通过隐式和显式地利用CLIP的预训练的知识，提出了一个新的密集预测框架。

具体而言，作者将CLIP中的原始图像-文本匹配问题 转换为像素-文本匹配问题 ，并使用像素-文本得分图来指导密集预测模型的学习。通过进一步使用来自图像的上下文信息来提示语言模型，能够促进模型更好地利用预训练的知识。

本文的方法与模型无关，可以应用于任意密集预测模型和各种预训练的视觉主干，包括CLIP模型和ImageNet预训练的模型。广泛的实验证明了本文的方法在语义分割，目标检测和实例分割任务上的卓越性能。

▊ 1. 论文和代码地址

DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

论文：https://arxiv.org/abs/2112.01518
代码：https://github.com/raoyongming/DenseCLIP

▊ 2. Motivation

“预训练+微调”的范式在很大程度上推动了各种下游计算机视觉任务的SOTA水平，包括图像分类、目标检测、语义分割和动作识别。由于每像素预测的标注和计算成本很高，因此预训练对于密集预测任务更为关键。

如上图所示，预训练通常是由监督的分类或者自监督学习来学习的。然后，将特定任务模块（如检测器或解码器）添加到主干中，并使用较少的训练数据在目标数据集上对整个模型进行优化。

与仅基于图像的常规监督和自监督预训练方法不同，对比语言-图像预训练 (CLIP) 是通过探索大规模噪声图像-文本对的对比学习来学习高质量视觉表示的新框架。通过利用图像和相关文本之间的语义关系，这个新框架从文本的丰富和语义级监督中受益，同时享受更广泛和更便宜的数据源。由于语言监督，通过CLIP预训练的模型在没有标注或非常有限的标注的情况下在各种视觉分类任务上取得了不错的结果。

目前的工作已经可以将CLIP模型转移到下游的视觉分类任务中。

最低0.47元/天解锁文章

我爱计算机视觉

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
清华&MBZUAI&CMU&牛津提出DenseCLIP，用上下文感知的提示进行语言引导密集预测！代码已开源！...

关注公众号，发现CV技术之美▊写在前面最近的研究表明，使用对比图像文本对进行大规模的预训练可能是从自然语言监督中学习高质量视觉表示的有前途的方法。得益于更广泛的监督来源，这一新范式在下游...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。