论文阅读“Partially view-aligned representation learning with noise-robust contrastive loss“（CVPR2021）

最新推荐文章于 2023-01-31 14:25:09 发布

不吃香菜的zbw

最新推荐文章于 2023-01-31 14:25:09 发布

阅读量805

点赞数

分类专栏：论文阅读文章标签：大数据

本文链接：https://blog.csdn.net/qq_43497436/article/details/125502958

版权

论文阅读专栏收录该内容

39 篇文章 11 订阅

订阅专栏

论文标题

Partially view-aligned representation learning with noise-robust contrastive loss

论文作者、链接

作者：Yang, Mouxing and Li, Yunfan and Huang, Zhenyu and Liu, Zitao and Hu, Peng and Peng, Xi

链接：CVPR 2021 Open Access Repository

代码：https://github.com/XLearning-SCU/2021-CVPR-MvCLN

Introduction逻辑（论文动机&现有工作存在的问题）

多视图表征学习Multi-view Representation Learning (MvRL)，目的是从多视图数据中学习到恒定的特征表示——现有的方法往往有两个依赖：数据视图的一致性和完备性，少了其中一个条件，多视图表征学习就失效了——但是现实情况下这两个条件往往在数据收集和传输时导致不成立——于是，问题转化为了部分数据丢失问题Partially Data-missing Problem (PDP)和部分视图对齐问题Partially View-aligned Problem (PVP）

本文笔尝试在没有标签的情况下解决PVP问题——理想情况下，数据是对齐的——简单解法是直接使用匈牙利算法（Hungarian algorithm）对视图进行预处理，构建两个视图的相关视图——匈牙利算法存在的缺点：（1）不能应用在多视图的行空间（2）没有利用到数据之间的相关性——部分对齐视图聚类（Partially View-aligned Clustering ，PVC）提出了一种可微神经模块的匈牙利算法，从而可以实现数据对齐和表示学习在一个阶段的方式——但是这两种算法目标都是实例级的对齐，这可能导致多视图聚类和分类过拟合——层级对齐比实例级对齐的需求更高——对于交叉视图的实例，对齐正确的概率有1/N或者1/K（实例级和类别级），即，类别级对齐的概率更高（K<<N）

基于上面的观察，本文解决PVP问题通过：类别级的对齐而不是实例级的对齐，如图1（c）所示。提出了Multi-view Contrastive Learning with Noise-robust loss (MvCLN)算法，基本思想是将视图对齐问题重新解释为一种识别任务，即，以双视图数据为例，对于一个视图中的每个样本，MvCLN旨在从另一个视图中识别属于同一类别的对应对象——样本对的构建：将对齐的数据视为正对，使用随机抽样构造负对(NP)——为了减轻甚至消除假阴性的样本对，设计了抗噪音的对比损失（noise-robust contrastive loss）

论文核心创新点

（1）提出了聚类似的一对多映射任务，提出了通过层级对齐而不是实例对齐来解决PVP问题。

（2）将对齐问题重新解释为视图辨别问题，通过一个对比学习模型来解决这个问题。

（3）通过建立视图之间的相关性来设计对比损失，提出了抗噪音的对比损失。传统的带噪声标签被定义为对分类等监督任务的不正确标注。相反，这项工作提出的观点对应可能是错误的，这与传统的定义有显著的不同。

论文方法

Problem Formulation问题公式化

取 $\left\{\mathbf{X}^{i}\right\}_{i=1}^{v}=\left\{\mathbf{x}_{1}^{i}, \mathbf{x}_{2}^{i}, \ldots, \mathbf{x}_{N}^{i}\right\}_{i=1}^{v}$ 为一个部分视图对齐的数据集，即 $\left\{\mathbf{X}^{i}\right\}_{i=1}^{v}=\left\{\mathbf{A}^{i}, \mathbf{U}^{i}\right\}_{i=1}^{v}$ ，其中 $v$ 代表视图的数量，对齐和非对齐的视图分别记作 $\left\{\mathbf{A}^{i}\right\}_{i=1}^{v}=\left\{\mathbf{a}_{1}^{i}, \mathbf{a}_{2}^{i}, \ldots, \mathbf{a}_{N_{1}}^{i}\right\}_{i=1}^{v}$ 和 $\left\{\mathbf{U}^{i}\right\}_{i=1}^{v}=\left\{\mathbf{u}_{1}^{i}, \mathbf{u}_{2}^{i}, \ldots, \mathbf{u}_{N_{2}}^{i}\right\}_{i=1}^{v}$ 。目标是利用对齐视图 $\left\{\mathbf{A}^{i}\right\}_{i=1}^{v}$ 来对齐非对齐视图 $\left\{\mathbf{U}^{i}\right\}_{i=1}^{v}$ ，并同时对整个数据集学习一个共同的特征表达。

取 $v=2$ 举例，当 $\bold{x}^1_k$ 和 $\bold{x}^2_k$ 属于同一个类时，该数据集是对齐的，即：

其中， $C(x)$ 代表 $x$ 所属的类别。于是，类别级的对齐问题，就变成了解决一个识别问题，即使得 $\bold{x}^1_k$ 和 $\bold{x}^2_k$ 满足上述公式。

为了完成识别任务，类别级的对比学习的目标变成增大正样本对的相似性，同时减小负样本对的相似性。但是，对比学习不能直接用于识别任务。一方面，已经包含了正样本对 $\left\{\mathbf{A}^{i}\right\}_{i=1}^{v}$ ，于是剩下的问题是如何构造构造负样本对。另一方面，在没有标签数据的帮助下，不可避免的会得到一些含有噪音的负样本对。因此，本文提出使用随机采样的方法生成负样本对。具体来说，从 $\left\{\mathbf{A}^{i}\right\}_{i=1}^{v}$ 随机选择两个样本 $\text{a}^1_i$ 和 $\text{a}^2_j$ ，当 $i \neq j$ 的时候，作为负样本对。直觉上来说，构建样本对的时候有 $1/K$ 的概率是含噪音的样本对，当类别数是不均匀的时候。因此，目标是使对比学习对噪声标签(即假阴性)具有鲁棒性。

Noise-robust Contrastive Loss 噪音鲁棒对比损失

为了减轻假阴性的影响，提出如下损失函数：

其中 $N$ 是数据对的数量， $P=0/1$ 代表正/负样本对。

对于正样本交叉视图 $\text{a}^1_i$ 和 $\text{a}^2_j$ ，目标是最小化它们俩之间的距离，即

$f_1,f_2$ 代表两个参数化的神经网络，将两个视图映射到潜在空间

为避免琐碎解，又加入了以下这一项：

其中， $m$ 是一个阈值，使得负样本直之间的距离比较大， $\left(\mathbf{a}_{i}^{1}, \mathbf{a}_{j}^{2}\right)$ 是负样本对。由于上述损失没有明确包含对噪声标签的鲁棒性，它会混淆真阴性和假阴性，从而导致性能下降。为了增加对假阴性的鲁棒性，提出以下损失：

其中m是一个阈值，只在初始化阶段计算，通过以下公式：

其中 $N_p,N_n$ 分别是正样本和负样本的数量。公式6可以使得模型避免对假阴性样本对形成过拟合。

Analysis on the Proposed Loss对提出的损失函数的分析

计算 $\mathcal{L}^{neg}$ 的梯度 $d$ ，即，负样本的距离变成0，只考虑 $d\leq m$ ，即：

然后 $d=m/3$ 或者是 $d=m$ 。性能分为两个区域，即， $0<d<m/3$ 和 $m/3<d<m$ 。对关于负样本的上述损失，进行可视化如下：

从图中可以观察到，比起简单版的损失，对噪音有鲁棒性的损失，不会单调地增加负对的距离，从而具有以下两个特点:

（1）反向优化（ $0<d<m/3$ ）：对于那些坐落在孔区域的负样本对，本文提出的损失函数的梯度会反向，因此负样本对的距离会减少。

（2）慢优化（ $m/3<d<m$ ）：对于落在 $m/3<d<m$ 区域的样本，优化速度会比简单损失的速度要慢，因为梯度总是和负值相关的，并且公式中前者的梯度总是比后者的大，即：

如果假阴性被约束为 $0<d<m/3$ ，第一个特征可以用来消除假阴性的影响。交替地，第二项可以通过将假阴性约束到 $m/3<d<m$ 来减轻假阴性的影响。于是，问题就变成了如何将假阴性和真阴性样本对区分开来。

Bengio et al通过经验发现，神经网络容易首先适应简单的模式，这为我们提供了动机。具体来说，本文提出了一个TNP，可以被视为一种简单的模式，然后FNP是一种比较复杂的模式。因此，我们有理由推测，具有简单对比损失的神经网络比FNP更快地适应TNP，如下图

更具体地说，从图中可以看出，由于TNP拟合速度更快，在训练早期TNP和FNP vanilla之间存在差距。

基于上述观察，我们提出采用两阶段优化策略来区分FNP和TNP基于上述观察。即，第一阶段应用简单对比损失去优化模型，到一个所有负样本对的平均距离比 $m$ 要大。结果是，由于TNP的拟合速度快，大多数TNP和FNP会落入 $d>m$ 和 $d<m$ 的区域。随后，模型就到了第二阶段，对噪音鲁棒的对比损失进行优化，这个阶段中，大多数FNP会落在 $m/3<d<m$ 或者是 $0<d<m/3$ ，FNP的距离不会上升或者下降的太快，因此可以减轻甚至消除含噪音标签的影响。同时，它只对真正的负对产生微不足道的影响，因为到目前为止它们的大部分距离都大于 $m$ 。

消融实验设计

提出的对噪音鲁棒的对比损失

正负样本对的比例

对齐比列的影响

两个阶段的交替时间

一句话总结

论文好句摘抄（个人向）

（1）However, both the vanilla Hungarian algorithm and PVC aim to achieve instance-level alignment which might be over-suffificient to multi-view clustering and classifification.

（2）Without loss of generality, we take v = 2 as a showcase

不吃香菜的zbw

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文阅读“Partially view-aligned representation learning with noise-robust contrastive loss“（CVPR2021）

Partially view-aligned representation learning with noise-robust contrastive loss论文作者、链接作者：Yang, Mouxing and Li, Yunfan and Huang, Zhenyu and Liu, Zitao and Hu, Peng and Peng, Xi链接：CVPR 2021 Open Access Repository代码：https://github.com/XLearning-SCU/202
复制链接

扫一扫