UniCL_计算机视觉_2022

Janged

已于 2022-07-06 12:34:59 修改

阅读量465

点赞数

文章标签：机器学习人工智能

于 2022-07-06 12:28:01 首次发布

在这里插入图片描述
文章链接：https://openaccess.thecvf.com/content/CVPR2022/papers/Yang_Unified_Contrastive_Learning_in_Image-Text-Label_Space_CVPR_2022_paper.pdf
代码链接:https://github.com/microsoft/UniCL

背景

在zore-shot、transfer learning和liner probing等多个问题设定下，将图片-文本结合起来构建对比学习的CLIP表现出杰出的性能，受到它的启发，UniCL不仅将计算机视觉和自然语言(图片-文本)两个方面结合起来，还加入了监督学习的内容，即图片-标签。

目的

将图片、文本、标签联合成数据 $S$ ，从中为图片 $x$ 学习到语义丰富的、独特性的视觉表示。

问题的定义

三元组数据 $S=\{(x_n,t_n,y_n)\}^N_{n=1}$ ， $x_n$ 表示图片， $t_n$ 表示语言描述内容， $y_n$ 表示图片的标签。

可以像上面的三元组数据一样表示的原因在于(1)来自网页的图片-文本对 $\{(x_n,t_n)\}^N_{n=1}$ 具有一对一的映射，每一个图片-文本对都有一个独一无二的标签，所以可以为这一个图片-文本对找到一个 $y_n$ 进而 $S=\{(x_n,t_n,y_n\equiv n)\}^N_{n=1}$ ；(2)即使图片具有简单的分类标签，但这些标签通常也是由具体的任务中相关的概念引导的，所以对于图片-标签对 $S=\{(x_n,t_n\equiv (C[y_n]),y_n)\}^N_{n=1}$ ， $C$ 就是一个 $y_n$ 为索引的概念名集合。基于上述的定义，可以将图片-标签对表示为有标签的图片-文本对。

算法内容

图片 $x$ 通过图片编码模型 $f_{\theta}$ 来表示为一个特征向量 $\tilde{\boldsymbol{v}} \in \mathbb{R}^{d \times 1}$ , $\tilde{\boldsymbol{v}}=f_{\theta}(x)$ ，对于每一个语言描述 $\in \mathcal{T}$ ，使用语言编码器 $f_{\phi}(\boldsymbol{t})$ 编码文本的特征向量 $\tilde{\boldsymbol{u}}\in \mathbb{R}^{d \times 1}$ ， $\tilde{\boldsymbol{u}}=f_{\phi}(\boldsymbol{t})$ ，对于在一个batch $\mathcal{B}$ 中第 $i$ 个图片和第 $j$ 个文本，将它们归一化到一个超球面，考虑到图像-文本的双向学习目标，所以 $u_i=\frac{f_{\theta}(x_i)}{||f_{\theta}(x_i)||},v_i=\frac{f_{\phi}(t_i)}{||f_{\phi}(t_i)||}$ ，（ $u_i$ 表示图片， $v_i$ 表示文本） ${min}_{\{\theta,\phi\}} \quad \mathcal{L}_{BiC}=\mathcal{L}_{i2t}+\mathcal{L}_{t2i}$

在这里插入图片描述

给定一个文本，在对应匹配的图片上的对比损失：

这里表示行的计算，把与文本匹配的图片找出来，然后这些图片和文本计算损失。
给定一个图片，在对应匹配的文本上的对比损失

这里表示；列的计算，把与图片匹配的文本找出来，然后这些文本和图片计算损失。

与其他常见的损失的比较

在这里插入图片描述

实验

对比实验
消融实验、batch size取值分析
结果可视化
加入图片文本的benefit

加入图片标签的benefit

Janged

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
UniCL_计算机视觉_2022

视觉识别是最近通过监督学习的人类注释的图像标签数据或语言-图像对比学习与网页爬行的图像-文本对。虽然监督学习可能会导致更有鉴别性的表示，但语言图像预训练显示出前所未有的零镜头识别能力，这主要是由于数据源和学习目标的不同属性。在这项工作中，引入了一个新的公式，将两个数据源合并到一个共同的图像-文本标签空间。在这个领域，我们提出了一种新的学习范式，称为统一对比学习(UniCL)，它有一个单一的学习目标，可以无缝地促进两种数据类型的协同。.........
复制链接

扫一扫