论文阅读“PICO: CONTRASTIVE LABEL DISAMBIGUATION FOR PARTIAL LABEL LEARNING”（ICLR2022）

不吃香菜的zbw

已于 2022-04-24 09:40:45 修改

阅读量4.4k

点赞数 16

分类专栏：论文阅读文章标签：深度学习

于 2022-04-16 12:10:29 首次发布

本文链接：https://blog.csdn.net/qq_43497436/article/details/124147938

版权

论文阅读专栏收录该内容

39 篇文章

订阅专栏

论文标题

PICO: CONTRASTIVE LABEL DISAMBIGUATION FOR PARTIAL LABEL LEARNING

论文作者、链接

作者：Wang, Haobo and Xiao, Ruixuan and Li, Yixuan and Feng, Lei and Niu, Gang and Chen, Gang and Zhao, Junbo

链接：https://arxiv.org/abs/2201.08984

代码：https://github.com/hbzju/PiCO

预备知识

Partial label learning (PLL)：部分标签学习，配备一组候选标签，而不是确切的真实标签

Introduction逻辑

深度学习需要大量标签，但是很少有研究关心标签的歧义问题。现有的方法要求有比较好的特征表示，并且假设在特征空间中相近的样本点更有可能有相同的真实标签。固有标签中的不确定性会对特征学习有负面影响，并且也阻碍标签消歧。

论文动机&现有工作存在的问题

标签消歧问题，即如何从候选标签中选出真实标签

固有标签中的不确定性会对特征学习有负面影响，并且也阻碍标签消歧

论文核心创新点

特征学习和标签消歧

对比学习+基于类原型的标签消歧算法

为分配在同一个类中的样本进行特征对齐，有助于标签消歧

（1）精选的伪标签可以给对比学习提供更好的正样本对

（2）更好的对比学习性能可以使得模型学到更好的特征，有助于标签消歧

论文方法

对比学习

目标函数

给公式（1）添加了一个对比学习的项，主要问题是如何构建正样本集。

对于每一个样本 $(x,Y)$ ，通过随机数据增广生成两个视图，一个队列视图和一个关键视图。

将生成的视图输入队列网络 $f(\cdot)$ 和关键网络 $g(\cdot)^\prime$ ，生成一对 $L_2$ 归一化嵌入向量 $\textbf{q}=g(Aug_q(x))$ 以 $B_k$ 及 $\textbf{k}=g^\prime(Aug_k(x))$ ， $Aug(\cdot)$ 代表数据增广。队列网络中使用相同的卷积块和分类器，后接一个预测头。与MOCO相同，关键网络使用动量更新参数。

维护一个队列来存储最新的key embeding k，并按时间顺序更新队列。即对比嵌入向量池contrastive embedding pool：

$B_q$ 和 $B_k$ 是每个当前batch的队列和关键视图的垂直嵌入向量

对于一个样本点 $x$ 的对比损失：

$P(x)$ 是正样本集并且 $A(x)=A \backslash \{\textbf{q}\}$

如何确定正样本集

使用分类器预测的标签 $\tilde{y}=\arg \max _{j \in Y} f^{j}\left(\operatorname{Aug}_{q}(\boldsymbol{x})\right)$ ，将预测标签限制在候选集合 $Y$ 中。

根据下列公式选择正样本

其中， $\tilde{y}^\prime$ 是 $k^\prime$ 的预测标签。本文还维护一个标签队列。样本点x的正样本集合的定义，是那些携带相同或近似标签，即 $\tilde{y}$ 相同或近似，的样本点。

总的目标函数：

尽管如此，通过CL学习高质量特征表示的目标依赖于对正样本集选择的准确预测，但在存在标签歧义的情况下，这一问题仍未得到解决，为此本文提出了一种新颖的标签消歧机制。

基于原型的标签消歧

对每一个类 $c \in \{1,2,...,C\}$ ，维护一个原型嵌入向量 $\mu_c$ ，可以看作是一组具有代表性的嵌入向量。伪目标分配是为了找到当前嵌入向量的最接近的原型向量，类似聚类步骤。通过一个平均动量式的函数进行硬标签分配。为此，我们可以直观地假设，原型向量的使用与对比项建立了一种联系

伪目标更新

用一种平均移动式的策略去更新伪目标

用一个独特的分布对伪目标进行初始化： $s_{j}=\frac{1}{|Y|} \mathbb{I}(j \in Y)$

然后使用下列的平均移动机制进行交替更新

其中， $\phi \in(0,1)$ 是一个正的常数， $\mu_j$ 是对第j个类的原型向量。按直觉来说，拟合一致的伪目标可以为分类器带来良好的初始化，因为在一开始对比嵌入向量就不太容易区分。采用平均移动策略将伪目标平滑地更新到正确的目标。原型向量:对于给定的输入x，最接近的原型向量表示它的ground-truth标签。由式6可知，s都有向z定义的one-hot分布略微移动的趋势。如果一个样本始终指向一个原型向量，那么伪目标可以(几乎)收敛到一个比较高置信的one-hot向量。